论文部分内容阅读
地址编码是联系空间地理信息与非空间地理信息的桥梁,是各种应用地理信息系统中必不可少的环节,也是数字城市的基础性组成部分。然而,由于中文地址自身的诸多原因,使得中文地址编码存在很多难点问题,以至于国外在地址编码方面的许多成熟技术不能直接应用于中文地址编码。本文在总结了国内外地址编码的相关研究进展的基础上,从地址规范化表达、地址解析、地址模型的构建、地址匹配等几个部分对地址编码的相关技术进行了研究,探讨相应的解决方案,设计原型系统并将其应用到相关的案例中,主要研究内容如下:
(1)中文地址规范化表达:分析中文地址的组成要素,研究不同概念粒度层次的地址要素类型及其等级关系,制定标注规范;提取地址通名,并按照地址要素分类体系对地址通名进行归类。
(2)中文地址解析:在确定中文地址要素分类体系的基础上,从规则和机器学习两个方面出发,设计了基于规则的地址解析算法流程和基于条件随机场的地址解析方法,实现了基于规则的地址解析与基于条件随机场的地址解析。实验证明两者的解析正确率分别达到93.6%与95.7%,符合大规模处理数据的要求。
(3)中文地址模型的自动化构建:在分析人工归纳地址模式优缺点的基础上,从地址要素间的二元关系出发,将数据挖掘中关联规则的方法首次运用到了地址模型的挖掘中,实现了基于关联规则挖掘的地址模型自动构建,对模型进行可视化显示,并探讨其在地址标准化方面的应用。
(4)中文地址匹配:在分析字符匹配相关算法的基础上,根据地址匹配的特点,设计了地址匹配的算法,实现了地址匹配的智能化。并在此基础上,设计了地址定位的相关策略,实现了地址的匹配定位。