中文地址服务关键技术的研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:haobs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以语言和文字为信息载体的地名地址作为空间信息中最为贴近人类的数据形式,是人脑对现实地理世界感知的一种重要信息载体,在国计民生中发挥着巨大作用。各行各业的信息应用也因为地名地址服务的加持而变得更加直观和便捷化。然而自然语言描述形式的多样化以及人类不同的语言习惯,使得不同部门、行业的地名地址数据库中对于同一地址的描述也不尽相同。同时因为政府部门职能交错,中文地址标准化建设相对落后,导致原始地名地址数据建设在规范性,完整性,一致性上存在较大问题。在此背景下,不同的行业的政府部门和厂商在应用地名地址库时通常需要针对取得的地名地址数据进行定制化开发,编制适合特定数据的服务,使得空间数据的互操作变得尤为困难。本文在现有地名地址服务研究的基础上,对采用不同描述规则和详尽程度的地址匹配过程展开讨论,从地址数据采集、地址分词、地址匹配和空间信息推理等过程做出较为深入的探索,最终研发出适合中文标准地址服务的原型系统。本文的主要研究和成果包含以下几个主要方面:制定更加适合中文地址特点的分词策略:在总结现有中文分词和中文地址分词研究的基础上,分析中文分词研究在中文地址匹配中的重要性,并设计出更加适合中文地址特征的地址分词引擎。策略包括搜集并建立更加完备的中文地名分词词典,以在中文分词中取得良好效果的隐马尔科夫模型作为分词基础模型,制定结构更加完善的地址分词角色体系。以此为后面中文标准地址服务提供更加可靠的支撑。建立适合中文地址匹配的地名角色识别引擎:通过对数字城市建设中的地址组合模型的研究和实际目标数据的统计分析,建立适合目标数据的地名角色集合。根据地名角色体系对样本数据进行人工标注以建立训练集,然后利用隐马尔科夫模型实现地名角色的自动识别。制定基于全文索引和角色匹配的地址匹配策略:研发匹配成功率和准确率较高的分词组合模型,通过角色匹配模式的制定和角色中分词匹配相似度的计算得出完整的地址匹配策略。结合在商业地址服务中取得广泛应用的全文索引方法,建立基于角色匹配和向量空间模型的地址匹配方法,把全文检索的高效性与基于角色匹配的地址匹配策略的准确性相结合。研发标准地名地址服务的原型系统:以武汉市工商地址数据为原始数据,经过数据清理建立标准地址库和非标准地址库,使用上述策略对地址数据进行处理,开发出适合行业应用的原型系统。包括提供兼具性能和准确性的中文地址模糊查询,非标准地址标准化,地址编码/反编码查询等服务接口和示范应用。
其他文献
中等职业教育在国家经济社会发展中具有重要的地位,为提高应用型人才培养质量,越来越多的中职学校正在推行工学结合的人才培养模式。工学结合模式强调学生边工作边学习,工作
山东省为全面贯彻党的十九大精神,同时为了解决省内大而不强、发展不平衡不充分的问题,山东省发布《山东省人民政府关于印发山东省新旧动能转换重大工程实施规划的通知》(鲁
摘 要:传统人文思想是中国传统文化的核心与灵魂,其特点是在各种关系中突出了人的重要性。神人关系上,人对神的实用主义态度;人与自然关系上,强调人与自然的统一,利用自然为人造福,突出入的价值;社会关系中,强调以人性为基础的社会准则;它将自然、社会和人视为一个和谐的统一体,以伦理道德为价值取向,追求人格和道德的完善。科学地审视传统人文思想,对今天贯彻科学发展观,构建和谐社会具有重要意义。  关键词:传统
反腐倡廉教育是预防腐败的基础性工作,是党员干部拒腐防变的思想保证。发挥教育的基础性作用,必须坚持教育的长期性、丰富教育内容、突出教育重点、创新教育形式、综合治理,
党的十七届四中全会审议通过的《中共中央关于加强和改进新形势下党的建设若干重大问题的决定》对加强和改进新形势下党的建设作出了战略部署。《决定》体现了党和人民事业发