论文部分内容阅读
文本是人文科学和社会科学信息的主要载体,其中往往包含了很多与地理空间位置有关的信息,如何将这些包含位置信息的自然语言与被称为地理学语言的地图进行自动匹配,是地理信息系统技术在人文、社会科学领域应用的关键技术之一。通过提取文本中具有空间指示意义地名,并将地名与地图上相对应的空间要素进行自动匹配是实现文本数据空间化的一个重要途径。
本文以收集到的厦门市土地政策文本文件为语料库,以厦门市“社区/村”级粒度的行政区划图和厦门市道路图为空间数据。首先创建厦门市地名词典:然后采用中文分词技术从土地政策文本中提取地名、时间等中文命名实体。本研究把地名分为三类:(1)行政区划地名,(2)自然地理实体地名和(3)人文地理实体地名。第一类地名具有很强的时效性,不同时期地名和其行政管辖范围不同,预示空间占有亦不同,所以本研究设计和建立了厦门市行政区划地名历史沿革时态数据库,该数据库记录了1995年以来厦门市各次行政区划调整地名历史沿革信息。利用地名分类编码和本研究创建的厦门市行政区划地名历史沿革时态数据库,以VisualBasic.NET为开发工具,选用GeoDatabase关系数据库存储空间数据、政策文本数据和地名历史沿革时态数据,以ArcGISEngine9.2作为GIS开发平台,基于组件式集成二次开发实现了地名与相对应空间数据的图文自动匹配。本文用不同来源的60篇政策文本文件作为语料,测试结果表明本研究提出的图文自动匹配方法取得了较好结果,平均匹配成功率达到80.3%。