基于标绘数据的旅游信息挖掘研究

来源 :杭州师范大学 | 被引量 : 1次 | 上传用户:jianzhu119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基于位置服务、地理信息系统、移动终端等技术的发展,人们愈发热衷于利用手机上的社交工具发布带有位置属性的信息,并由此产生了大量的标绘数据。标绘数据天然的具有地理位置属性和时间属性,拥有巨大的数据量,多样的表现形式、复杂的数据结构以及广泛的数据来源。标绘数据是人们利用互联网发表自己对某些事情的态度、观点、看法时产生的数据,它与人们的生活密切相关。因此此类数据具有挖掘价值,且潜力巨大。本文以旅游为例,挖掘标绘数据中的旅游信息。  本文研究的目的是从标绘数据中获取旅游信息,利用这些旅游信息帮助游客规划行程和辅助旅游部门决策。因为标绘数据包含很多方面的内容,所以研究中需要获取以旅游为主题的数据。首先对标绘数据中的文本信息进行文本分词,然后利用朴素贝叶斯算法将标绘数据分为旅游主题数据和非旅游主题数据,最后对旅游主题的标绘数据进行数据挖掘,获取旅游信息。  本文从旅游热点挖掘和旅游异常事件挖掘两个方面为获取旅游信息。热点挖掘是利用空间聚类算法对旅游标绘数据进行聚类,以达到获取旅游热点的目的。本文首先研究了以K均值(Kmeans)算法为代表的基于划分的空间聚类方法以及以具有噪声的基于密度的聚类方法(DBScan)算法为代表的基于密度的空间聚类方法。由于Kmeans算法随机设置初始聚类中心,聚类结果容易陷入局部最优解,并且算法需要用户输入参数类别数K,用户在不熟悉数据分布情况下很难给出合适的数值,最终会导致用户得不到精度较好的聚类结果。本文结合基于密度聚类的思想,提出了Kernel-Kmeans算法解决这些缺陷,保证用户得到精度较高的结果。文章利用该方法分别获取全国旅游热点信息和景区旅游热点信息。  旅游异常事件是指旅游标绘数据量的异常,通过对比某景区一段时间内每天的旅游标绘数据量,检测旅游标绘数据量远超于平时的日期。查阅资料,验证该景区在该日期是否举行活动。本文通过箱线图异常检测方法,检测到乌镇景区的世界互联网大会以及乌镇戏剧节活动。  本文为展示挖掘到的旅游信息,开发空间数据挖据与知识服务系统。系统主要通过 HeatMap热力展示技术展示热点挖掘的结果,分别展示了景区旅游热点信息,省份热点信息以及全国旅游热点信息。系统还通过 HighCharts图表展示技术展示景区信息以及景区异常事件。
其他文献
  “景观先行”是一种偏重从“景观”的角度来看待、解决城市问题的规划思路,以对景观环境的影响作为评判重大规划决策是否可行的标准。在风景旅游城市规划中实施“景观先行
  20 世纪以来,中国历史文化村镇的保护工作逐渐走向成熟。但单一的历史文化与旅游开发相结合的模式并不具有普适性。本文以泉掌历史文化名镇为例,探讨了资源零散型村镇历史
  居住区公园是城市公园中最贴近居民生活圈的户外活动场所,其功能要求相近。我们力求通过多样的设计手法,在空间处理、地形组织、使用功能、文化内涵等诸方面进行特色的探索
如何理解现代城市园林的本质内涵?这是进行城市绿化景观规划的根本问题。古代园林的最初设计是从景观意境出发,其中没有商业目的。现代中国以园林用地作为商业赢利场地,大兴土
帕金森病(Parkinson’s disease,PD)是一种常见的多发于中老年人的中枢神经系统退行性疾病,其主要病理改变为黑质多巴胺(dopamine,DA)能神经元的变性死亡以及残存神经元内路易小
甘油醚化生成的烷基甘油醚和甘油乙酰化生成的甘油酯均可作调和燃料的含氧添加剂,可显著降低颗粒物、碳氢化合物以及不受管制醛类的排放。本文选择两种离子液体[BMIM]BF4和[BMIM]PF6负载在活性炭上后作为绿色催化剂,催化甘油与叔丁基的醚化反应以及甘油与乙酸的乙酰化反应,并将反应后的产物作为甘油基添加剂添加到汽油-乙醇体系中。并对其理化性质进行检测。本文研究分为以下四个部分:第一部分主要是两种离子
  随着国民经济的发展,国内旅游呈现出良好的态势,古村落旅游更是以其独特的魅力受人追捧。在此趋势下,一些有条件的古村落纷纷开始发展古村落题材的旅游,但古村落的旅游发展不
会议
  随着《城乡规划法》的颁布实施,使规划在空间层面上由 “重城轻乡”向 “城乡互动”形成转变,城市绿地系统规划目前是作为城市总体规划的专项规划,作为规划体系的一份子,理应
会议
  本文以河北省石家庄市天桂山风景名胜区旅游城镇规划为例,在综合论述国内旅游城镇的规划研究成果的基础上,对旅游接待型旅游城镇规划设计中的产业结构、生态保持、文脉继承