论文部分内容阅读
近年来,由于基于位置的服务快速发展,尤其是对网络电子地图、移动位置服务(LBS)、便携式自动导航(PND)的使用,原有的兴趣点(POI)很难继续支撑这类服务。能否获取高质量的POI信息,成为此类服务的命脉所在。随着人们持币消费能力在迅猛增长,在日常消费、出行时,会将更多的注意力放在餐饮、娱乐、旅游等领域。这种不断增长的消费能力催生出了许多面向这一领域的信息提供商,他们所提供的信息内容丰富,并且实时性相对很高。结合上述背景,如何获取蕴含在web中的大量有价值的POI信息点成为如今的一个热点问题,对这些已有的POI信息进行校正、融合,得到有利用价值的规整数据,这些工作具有重大的理论意义和实际的现实意义。本文在多源POI数据融合方面,包括POI各特征字段的表示、可融合POI的分类、经纬度字段的统一、网络访问受限等方面,进行了深入而系统的研究,具体的研究工作和研究成果如下:(1)通过分析POI中各特征字段的形式、特点,提出了POI特征相似度用以表示待分类POI与原有POI集的关系,以此进行之后的判断依据。相似度的形式化表示主要由名称、地理信息相似度两部分组成,其中的地理信息包括POI中的地址和经纬度。名称部分是通过几种经典字符串匹配方法计算得出的,地址部分根据地址的相似计算得出,经纬度部分利用POI之间的距离得出。(2)文中用到的POI中的经纬度是来源于不同网络电子地图上的坐标,同一实体在不同地图上的坐标不一致,对之后的POI融合工作造成了一定的影响。为解决这个经纬度标准不统一的问题,本文提到两种解决方法,即基于纠偏表的方法和基于API的方法。(3)构建了一个基于规则的分类模型,构建过程中设置POI各字段内部系数及阈值,经过回归计算,选取其区分POI是否可融合效果最好的一组系数和阈值构建出了判定模型。这个计算过程复杂、耗时,并且不够灵活,不具备自动学习的能力。因此本文又利用机器学习分类器自身主动学习的能力,构造了几种不同的分类模型,比较之后选出了较优分类器,而实现分类性能的有效提升。论文创新点如下:(1)考虑到因为词语的存在使得不同汉字具有不同的关联性,本文假设中文字符串匹配的最小单位是词,不再延用传统中最小单位是单个汉字的假设。(2)融合了POI的非空间信息和空间信息作为判定可融合POI的依据,后通过一个基于规则的模型对POI进行分类判断。(3)利用机器学习中的分类方法,构建了具备自主学习能力的POI可融合分类模型。实验表明,本文提出的技术方法可以在基本无人工干预下自动、有效地对多源POI完成是否可融合判定。