论文部分内容阅读
随着基于位置服务、地理信息系统、移动终端等技术的发展,人们愈发热衷于利用手机上的社交工具发布带有位置属性的信息,并由此产生了大量的标绘数据。标绘数据天然的具有地理位置属性和时间属性,拥有巨大的数据量,多样的表现形式、复杂的数据结构以及广泛的数据来源。标绘数据是人们利用互联网发表自己对某些事情的态度、观点、看法时产生的数据,它与人们的生活密切相关。因此此类数据具有挖掘价值,且潜力巨大。本文以旅游为例,挖掘标绘数据中的旅游信息。 本文研究的目的是从标绘数据中获取旅游信息,利用这些旅游信息帮助游客规划行程和辅助旅游部门决策。因为标绘数据包含很多方面的内容,所以研究中需要获取以旅游为主题的数据。首先对标绘数据中的文本信息进行文本分词,然后利用朴素贝叶斯算法将标绘数据分为旅游主题数据和非旅游主题数据,最后对旅游主题的标绘数据进行数据挖掘,获取旅游信息。 本文从旅游热点挖掘和旅游异常事件挖掘两个方面为获取旅游信息。热点挖掘是利用空间聚类算法对旅游标绘数据进行聚类,以达到获取旅游热点的目的。本文首先研究了以K均值(Kmeans)算法为代表的基于划分的空间聚类方法以及以具有噪声的基于密度的聚类方法(DBScan)算法为代表的基于密度的空间聚类方法。由于Kmeans算法随机设置初始聚类中心,聚类结果容易陷入局部最优解,并且算法需要用户输入参数类别数K,用户在不熟悉数据分布情况下很难给出合适的数值,最终会导致用户得不到精度较好的聚类结果。本文结合基于密度聚类的思想,提出了Kernel-Kmeans算法解决这些缺陷,保证用户得到精度较高的结果。文章利用该方法分别获取全国旅游热点信息和景区旅游热点信息。 旅游异常事件是指旅游标绘数据量的异常,通过对比某景区一段时间内每天的旅游标绘数据量,检测旅游标绘数据量远超于平时的日期。查阅资料,验证该景区在该日期是否举行活动。本文通过箱线图异常检测方法,检测到乌镇景区的世界互联网大会以及乌镇戏剧节活动。 本文为展示挖掘到的旅游信息,开发空间数据挖据与知识服务系统。系统主要通过 HeatMap热力展示技术展示热点挖掘的结果,分别展示了景区旅游热点信息,省份热点信息以及全国旅游热点信息。系统还通过 HighCharts图表展示技术展示景区信息以及景区异常事件。