基于经济户口数据的语料库建设及匹配

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:ff303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国对数字化城市进程的逐步推进,各级地市、各行政部门对空间数据与非空间数据的整合集成愈发重视,对公共信息平台搭建、公共信息共享翘首以待。经济户口数据作为主要的社会数据之一,涵盖层面多、覆盖范围广,更不乏大量与地理位置相关的信息,是数字化城市建设中不可或缺的重要组成部分。通过经济户口的空间化,就可以完成社会各部门间的数据融合、分析、管理、制图和可视化表达。而这些目标的实现需要经济户口数据匹配技术的支持。  经济户口数据匹配与传统形式上的地名地址匹配稍有不同,是将经济户口数据中包含的企业名称信息通过一系列地名地址匹配算法,得到最佳匹配坐标并定位到电子地图上的过程。但由于经济户口数据形式多样、结构复杂,传统的地址编码技术和基于词典的中文解析算法并不能完全胜任,因此,经济户口数据匹配工作的实行需要借助语料库、相似度匹配等相关理论方法。  本文系统分析了经济户口数据中企业名称的组织形式,提出四个基本部分和核心词匹配理念;深入研究了中文匹配的原理特点,并以潍坊市奎文区9368条经济户口数据作为训练集,设计构建出基于 TRIE索引树机制行政区划词典,枚举法和表结构相结合的组织形式词典和基于双字哈希和数组三层数据结构的行业类型语料库,为经济户口数据分词提供辅助,显著提升了分词准确度;总结制定出涵盖514种行业类型的三级编码规则,实现了各行业间相关关系的刻画;引用本体相似度模型,从文字相似性、语义关系、语义距离、节点深度、节点密度五个方面,完成了文字相似度和类型相似度值的设置,并通过动态加权方法求得复合相似度指标,建立起基于经济户口语料库的相似度匹配方法,突破了语料库原有意义上单纯的转译功能,作为纽带实现了待匹配企业名称字符串与标准地名地址数据库的匹配挂接,在核心词匹配失败时,提供多选择可能。文章最后以潍坊市潍城区8439条经济户口数据作为测试集,对本文提出的匹配方法进行实验验证。试验结果表明,利用本文设计的经济户口语料库和相似度匹配方法能够高效地完成经济户口数据的核心词匹配和相似度匹配,大幅度提高了检索效率和匹配成功率,具有良好的实际可操作性。
其他文献
本文通过对荣华二采区10
期刊
随着新型城镇化进程的不断加快,传统村落的发展日渐被社会所关注。在经济快速发展的基础上,传统村落有了好的发展条件,但是城乡经济发展存在巨大差异,导致不少农村居民选择外