论文部分内容阅读
以语言和文字为信息载体的地名地址作为空间信息中最为贴近人类的数据形式,是人脑对现实地理世界感知的一种重要信息载体,在国计民生中发挥着巨大作用。各行各业的信息应用也因为地名地址服务的加持而变得更加直观和便捷化。然而自然语言描述形式的多样化以及人类不同的语言习惯,使得不同部门、行业的地名地址数据库中对于同一地址的描述也不尽相同。同时因为政府部门职能交错,中文地址标准化建设相对落后,导致原始地名地址数据建设在规范性,完整性,一致性上存在较大问题。在此背景下,不同的行业的政府部门和厂商在应用地名地址库时通常需要针对取得的地名地址数据进行定制化开发,编制适合特定数据的服务,使得空间数据的互操作变得尤为困难。本文在现有地名地址服务研究的基础上,对采用不同描述规则和详尽程度的地址匹配过程展开讨论,从地址数据采集、地址分词、地址匹配和空间信息推理等过程做出较为深入的探索,最终研发出适合中文标准地址服务的原型系统。本文的主要研究和成果包含以下几个主要方面:制定更加适合中文地址特点的分词策略:在总结现有中文分词和中文地址分词研究的基础上,分析中文分词研究在中文地址匹配中的重要性,并设计出更加适合中文地址特征的地址分词引擎。策略包括搜集并建立更加完备的中文地名分词词典,以在中文分词中取得良好效果的隐马尔科夫模型作为分词基础模型,制定结构更加完善的地址分词角色体系。以此为后面中文标准地址服务提供更加可靠的支撑。建立适合中文地址匹配的地名角色识别引擎:通过对数字城市建设中的地址组合模型的研究和实际目标数据的统计分析,建立适合目标数据的地名角色集合。根据地名角色体系对样本数据进行人工标注以建立训练集,然后利用隐马尔科夫模型实现地名角色的自动识别。制定基于全文索引和角色匹配的地址匹配策略:研发匹配成功率和准确率较高的分词组合模型,通过角色匹配模式的制定和角色中分词匹配相似度的计算得出完整的地址匹配策略。结合在商业地址服务中取得广泛应用的全文索引方法,建立基于角色匹配和向量空间模型的地址匹配方法,把全文检索的高效性与基于角色匹配的地址匹配策略的准确性相结合。研发标准地名地址服务的原型系统:以武汉市工商地址数据为原始数据,经过数据清理建立标准地址库和非标准地址库,使用上述策略对地址数据进行处理,开发出适合行业应用的原型系统。包括提供兼具性能和准确性的中文地址模糊查询,非标准地址标准化,地址编码/反编码查询等服务接口和示范应用。