论文部分内容阅读
中文地址匹配研究的目的是把非标准、非规范化的地址通过中文地址匹配技术进行聚合,从而以中文地址为纽带关联其余信息,为大数据分析提供一条重要的途径。地址是描述空间坐标的自然语言字符串,也是标识人类居住、工作、生活等的空间坐标,与人的关系极为密切。地址在物流、电信注册、户籍、税务、房产、工商等领域有着大量的记录,通过对这些数据的分析可以对国家经济和社会安全有着积极的影响。现阶段,中文地址的利用仍处于较为初级的阶段。由于中文地址仅是一种描述性数据,不是结构化数据,存在形式多样、机器难以理解等问题,不能直接用于聚合、匹配,不利于对数据的分析。中文地址匹配的研究可以解决中文地址的标准化、精确匹配等问题,为实现了不同场景下含有地址数据的互通提供有效的支撑。虽然国外对地址匹配有非常成熟的研究,但基于中文的复杂性,以及我国在地址统筹规划、标准制定中进展稍晚,现有技术中对中文地址匹配存在许多问题。基于以上几点,本文将确定以中文地址匹配为研究课题,研究中文地址的标准化、匹配等问题。本文将从统计和规则相结合的角度出发,对中文地址匹配做了以下研究:1.中文地址标准化研究。中文地址由中文字符、英文字符、数字字符、特殊字符等构成,本文首先分析了中文地址的复杂性与标准化的难度,然后分析了标准中文地址需要的地址要素构成,并对如何获得标准化的中文地址进行了研究,提出了先对中文地址进行分词、再对词进行地址要素识别的方法。2.中文地址高效匹配算法研究。在中文地址标准化后的基础上,本文研究了中文地址高效的匹配方法。3.中文地址匹配系统设计。针对中文地址匹配的需求,本文设计并实现了一个切实可行的中文地址匹配系统。本文的创新点为:1.提出了基于LSTM网络的中文地址的分词算法。2.在分词基础上提出了基于规则和理解的地址解析算法。