基于自然语言处理的多源POI数据融合的研究

被引量 : 0次 | 上传用户:yuyangyy12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于基于位置的服务快速发展,尤其是对网络电子地图、移动位置服务(LBS)、便携式自动导航(PND)的使用,原有的兴趣点(POI)很难继续支撑这类服务。能否获取高质量的POI信息,成为此类服务的命脉所在。随着人们持币消费能力在迅猛增长,在日常消费、出行时,会将更多的注意力放在餐饮、娱乐、旅游等领域。这种不断增长的消费能力催生出了许多面向这一领域的信息提供商,他们所提供的信息内容丰富,并且实时性相对很高。结合上述背景,如何获取蕴含在web中的大量有价值的POI信息点成为如今的一个热点问题,对这些已有的POI信息进行校正、融合,得到有利用价值的规整数据,这些工作具有重大的理论意义和实际的现实意义。本文在多源POI数据融合方面,包括POI各特征字段的表示、可融合POI的分类、经纬度字段的统一、网络访问受限等方面,进行了深入而系统的研究,具体的研究工作和研究成果如下:(1)通过分析POI中各特征字段的形式、特点,提出了POI特征相似度用以表示待分类POI与原有POI集的关系,以此进行之后的判断依据。相似度的形式化表示主要由名称、地理信息相似度两部分组成,其中的地理信息包括POI中的地址和经纬度。名称部分是通过几种经典字符串匹配方法计算得出的,地址部分根据地址的相似计算得出,经纬度部分利用POI之间的距离得出。(2)文中用到的POI中的经纬度是来源于不同网络电子地图上的坐标,同一实体在不同地图上的坐标不一致,对之后的POI融合工作造成了一定的影响。为解决这个经纬度标准不统一的问题,本文提到两种解决方法,即基于纠偏表的方法和基于API的方法。(3)构建了一个基于规则的分类模型,构建过程中设置POI各字段内部系数及阈值,经过回归计算,选取其区分POI是否可融合效果最好的一组系数和阈值构建出了判定模型。这个计算过程复杂、耗时,并且不够灵活,不具备自动学习的能力。因此本文又利用机器学习分类器自身主动学习的能力,构造了几种不同的分类模型,比较之后选出了较优分类器,而实现分类性能的有效提升。论文创新点如下:(1)考虑到因为词语的存在使得不同汉字具有不同的关联性,本文假设中文字符串匹配的最小单位是词,不再延用传统中最小单位是单个汉字的假设。(2)融合了POI的非空间信息和空间信息作为判定可融合POI的依据,后通过一个基于规则的模型对POI进行分类判断。(3)利用机器学习中的分类方法,构建了具备自主学习能力的POI可融合分类模型。实验表明,本文提出的技术方法可以在基本无人工干预下自动、有效地对多源POI完成是否可融合判定。
其他文献
随着北京城市化的快速发展,城乡规划建设水平的不断提高和人们对社会发展理念的不断更新以及人口激增。这些因素使得人们的居住区域逐渐由城中心区域转移到城乡结合区域。如
文献报道马鞭草科臭牡丹叶具有抗肿瘤作用。为了筛选抑制肿瘤细胞增殖的成分,在探讨该植物叶的细胞增殖抑制作用时,发现其甲醇提取物对B16F10细胞增殖有弱的抑制作用。并且,
目的总结小儿膀胱结石患者经皮膀胱穿刺造瘘经输尿管镜下钬激光碎石术的围术期护理。方法回顾性分析本院接受膀胱穿刺造瘘后经输尿管镜钬激光碎石治疗的小儿膀胱结石患者30例
<正> 安东尼·克罗斯兰(1918—1977)是战后英国工党重要的理论家和著名的政治活动家,也是当代西欧民主社会主义理论的创立者之一。克罗斯兰出身在伦敦的一个文职官员家庭里,
排球运动在我国的发展经历了一个漫长的时期,从1905年开始的起步逐渐步入辉煌,1981和1982年女子排球获得世界排球锦标赛冠军,1984年获得洛杉矶奥运会女子排球冠军。如今2012年伦
人的自由全面发展理论是人类一个恒古恒新的课题,是马克思主义的重要理论,也是我国制定社会主义教育方针、确立社会主义教育目标的重要理论依据,更是社会主义建设的价值目标
交通运输作为第三产业的重要组成部分,是国民经济的基础性、支柱性产业,是联系各项社会经济活动的纽带,与国民经济其他产业相互依存、紧密相连,并共同对我国经济社会的发展与
词汇作为基本的语言结构单位和意义单位,是词汇学、语义学、语用学等各语言学科共同的研究对象。动词在整个词汇体系中又占有非常重要的地位。因此,从多角度,尤其是从对比、
以研究永新盾牌舞的武术文化为目的,采用文献分析、田野调查、逻辑推理等方法,分析了永新盾牌舞源于一项集群体作战、以巧智取、灵活应变的实用性盾牌武术,是属庐陵民间庄堂
阻燃剂是赋予易燃聚合物难燃性的助剂,由于高分子材料的快速的发展,阻燃剂在各类助剂中的地位进一步提升。阻燃效率高、价格低廉的卤系阻燃剂在19世纪80年代得以迅猛的发展,