论文部分内容阅读
随着互联网技术的发展和社会经济的进步,旅游已经成为人们生活中不可或缺的一部分,人们对旅游信息服务的要求变得更加多样化,越来越多的人选择根据自己的需要,通过网络获取旅游景点的文字、图片等信息来为旅行做准备,也倾向于分享自己的旅游行程和旅程体验。因此基于旅游大数据的景点位置识别与信息搜索研究成为现在研究者关心和探索的热点,是帮助提高人们生活质量的重要方法。本文完成的主要工作如下:(1)结合景点评论文本数据的特点,利用动态主题模型提取景点在时间维度下的主题分布,有效地获得景点的主题分布与演化,建立了与景点相关的语义主题模型。训练得到景点在时间维度下的主题分布,在旅游信息搜索中引入时间信息,通过景点主题在时间维度上的变化来推测用户的搜索意图,可有效地提高景点信息搜索的准确率。结合游客拍摄的景点图片的GPS信息,利用聚类算法,得到景点图像的聚类中心,获得相应的热门景点位置,实现了景点图片位置信息的有效提取,获取了热门景点的分布信息。(2)提出了一种基于深度学习的景点图像位置识别的方法。利用卷积神经网络结构,提取图像的深度特征,将在视觉与地理位置上接近的图像集的交集作为候选集,结合查询图像特征与候选图像特征的相似度,对候选图像进行排序,得到在视觉语义和位置上与查询图像最相近的图像位置,作为查询图像的位置信息。在Flickr上爬取的北京地区景点图像数据集和European Cities景点地标图像数据集上进行实验,实验结果表明了基于深度学习的景点图像位置识别方法的有效性;与基于图像基本特征的方法和未考虑图像位置信息的方法作比较,基于深度学习的景点图像位置识别方法获得了更高的准确性,平均提高约15%。(3)提出了一种基于景点动态主题和搜索意图的旅游信息搜索方法。结合景点评论文本的特点,利用动态主题模型对景点提取出有效的语义主题模型,利用KL距离计算查询模型与文档模型之间的相似度,获取了有效的查询结果。结合景点评论数据和动态主题模型,通过景点主题在时间维度上的变化来推测用户的搜索意图,提高了景点信息搜索的准确率。结合搜索结果多元化的搜索方法,使搜索结果具有更多代表性的内容;通过搜索意图分类算法,解决了传统搜索方法对用户搜索意图理解不足的问题,从而提高了景点信息搜索的准确率。在北京地区的景点相关数据上进行实验,实验结果表明了结合景点主题和搜索意图的搜索方法的有效性,相比于基于关键词的搜索方法,搜索性能具有一定的提升。(4)设计和开发了基于旅游大数据的景点位置识别与信息搜索系统。该系统分为跨媒体旅游数据分析模块、基于深度学习的景点图像位置识别与搜索模块、基于景点主题与游客搜索意图的旅游信息搜索模块。使用JSP进行前端页面设计及展示,使用Struts 2框架完成前后端控制,完成了后端数据计算处理程序和算法的封装。本文结合数据挖掘算法及图像、文本搜索算法,为游客提供了较丰富和准确的旅游信息搜索功能,帮助游客获取到符合搜索意图的旅游信息,从而方便旅游计划的制定。