论文部分内容阅读
自然语言是人们日常生活中用于沟通交流的重要工具之一,和人们的认知习惯更加的契合。相比于结构化的计算机语言,非结构化的自然语言更加容易被人们接受。实现热于计算机之间无障碍的“交流”,即实现非结构化的自然语言与结构化的计算机语言之间的无障碍“交流”,成为计算机领域的重点与难点。自然语言中含有地理空间对象、地理空间对象的属性及其地理对象之间的空间关系等大量的地理空间信息。这些空间信息是人们对客观存在及其关系最直接的描写及表达。相比于结构化的地理信息展示,基于自然语言的地理信息服务能够更好的符合人们对于空间信息的认知需求。随着中文文本标注体系的不断完善,从自然语言中抽取非结构化的空间信息并被计算机系统解析可以得到很好的实现。通过构建地理空间信息的标注体系结构,挖掘自然语言中非结构化的空间信息的句法结构,可以将自然语言中的非结构化的空间信息提取出来,并用结构化的计算机语言存储,可以更好地推理出人们对地理空间信息的认知以及描述习惯,更好的实现非结构化的自然语言与结构化的计算机语言之间的“沟通”;将其应用于GIS应用的各个方面,可以提高地理信息服务的质量,更好的服务于人们的生产和生活。本文以实现自然语言空间信息标注及提取,自动识别自然语言中的空间关系为目标,基于现有的自然语言处理的相关技术方法以及中文文本的标注方法,构建基于自然语言的空间信息标注体系、自然语言空间信息描述句法规则,基于条件随机场以及随机森林模型实现自然语言地理空间信息的提取,自然语言空间关系的识别分类。围绕这个主题,主要完成了以下工作:(1)基于《中国地名通名集解》构建了地名通名词典,为包含空间地理实体名称的自然语言语句的分词提供了分词的一个依据;(2)利用归纳总结的方式,对自然语言空间关系描述语句进行了分析,构建了自然语言空间关系描述句法模式;(3)利用基于统计的条件随机场模型对自然语言语料库进行分词解析;(4)结合地理信息的特征及描述语言的特点制定中文文本的地理信息标注体系和标注规范,对自然语言中的地理信息进行标注,构建了标注语料库;对标注后语料库中的词汇进行分类整理,构建了地理实体名称词典、空间拓扑关系词典、空间方位关系词典、空间距离关系词典;对词频进行统计分析,得到人们空间信息认知表达的一般规律;(5)随机抽取标注语料库中的语句作为训练数据,归纳总结了空间关系类型的特征集合,构建了用于空间关系信息识别分类的随机森林模型,对随机抽取的测试语句中的空间信息进行分类识别。