基于中文分词的图文自动匹配方法研究——以土地政策文本为例

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:jbhjyh12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是人文科学和社会科学信息的主要载体,其中往往包含了很多与地理空间位置有关的信息,如何将这些包含位置信息的自然语言与被称为地理学语言的地图进行自动匹配,是地理信息系统技术在人文、社会科学领域应用的关键技术之一。通过提取文本中具有空间指示意义地名,并将地名与地图上相对应的空间要素进行自动匹配是实现文本数据空间化的一个重要途径。 本文以收集到的厦门市土地政策文本文件为语料库,以厦门市“社区/村”级粒度的行政区划图和厦门市道路图为空间数据。首先创建厦门市地名词典:然后采用中文分词技术从土地政策文本中提取地名、时间等中文命名实体。本研究把地名分为三类:(1)行政区划地名,(2)自然地理实体地名和(3)人文地理实体地名。第一类地名具有很强的时效性,不同时期地名和其行政管辖范围不同,预示空间占有亦不同,所以本研究设计和建立了厦门市行政区划地名历史沿革时态数据库,该数据库记录了1995年以来厦门市各次行政区划调整地名历史沿革信息。利用地名分类编码和本研究创建的厦门市行政区划地名历史沿革时态数据库,以VisualBasic.NET为开发工具,选用GeoDatabase关系数据库存储空间数据、政策文本数据和地名历史沿革时态数据,以ArcGISEngine9.2作为GIS开发平台,基于组件式集成二次开发实现了地名与相对应空间数据的图文自动匹配。本文用不同来源的60篇政策文本文件作为语料,测试结果表明本研究提出的图文自动匹配方法取得了较好结果,平均匹配成功率达到80.3%。
其他文献
气候变化和城市化背景下自然灾害给人类社会造成的损害正逐年上升,严重威胁人类社会的可持续发展。越来越多的研究表明,灾害损失不仅仅受自然环境系统中致灾因子的影响,更取
语文教材只是为教师提供了“通常用什么教”的材料,课堂教学教什么内容,需要对教材进一步加工,做到“教材内容教学化”.“实际上需要教什么”? 为使具体情境中这一班学生乃至
期刊
在全球变化研究中,人类越来越关注自身生存环境与地理环境之间的联系,尤其是全新世以来海平面变迁影响着沿海地区人类的生活方式。人类急需了解未来气候、海平面变化趋势和可
科学准确的估算农作物生物量及生物质能利用潜力是生物质能源开发利用战略的必要前提。随着遥感技术的不断发展,可获取的遥感数据的时间、空间、光谱分辨率都在不断提高,为大
学位
在初中英语教学中普遍存在一个问题,那就是学生英语成绩两极分化,这将直接影响初中学生的英语成绩以及今后的英语学习,乃至个人发展。在课改之前,初中生的英语成绩一般会在八年级时出现两极分化,但在课改后,其英语水平会在七年级下学期就会出现大面积分化现象。认真学的学生,其英语成绩可能会更好,但不认真学的学生,成绩却大幅度下滑,有的学生甚至彻底放弃英语学习。因此,英语教师很有必要对学生英语两极分化的现象进行分
社会经济生产规模不断扩大、城市化水平不断提高使得自然灾害产生的影响越来越深远,造成的损失越来越严重。复杂的灾情对灾害评估工作提出了新的要求,简单的自然灾害评估和灾
西安经济技术开发区是我国中西部国家级开发区建设与发展的一个缩影,其技术学习创新的形成经历了一段相当长的时间,且与我国经济体制和科技体制的改革密切相连。国家科技体制是
当今,温泉旅游己成为一种新的时尚追求,特别是伴随着国家带薪休假制度的实施,温泉度假收到越来越多人们的欢迎。温泉地的发展演化规律表明,我国的温泉旅游已经步入大众旅游的发展