论文部分内容阅读
随着Web 2.0社交网络的快速发展,互联网上产生了海量的旅游数据,导致信息过载问题的出现。用户从中获取有效信息需要花费很多精力,使得用户对旅游信息的搜索和主动推送的需求越来越高。研究面向跨媒体旅游大数据的精准搜索与主动推送具有重要的理论和应用意义。本文完成的主要工作如下:(1)采用Twtter-LDA进行景点兴趣主题建模,对景点评论进行主题分析。通过对景点评论数据的噪声去除处理,使得分词后的结果能够表达景点兴趣的有意义的词汇,实现了高质量景点兴趣主题模型的建立。针对地理标记照片数据的特点,进行密度聚类,获得了大量的有意义的旅游地点,并根据游客拍照时间对有游客照片进行排序,获得了大量的用户游览序列。(2)提出了基于景点兴趣主题模型的精准搜索方法。通过采用主题查询扩展算法,实现了快速、准确的查询扩展。通过计算用户查询的主题语义特征向量与景点主题分布的相似度,实现了在主题语义层面上对用户查询意图的分析。实验结果表明,相比于仅使用查询扩展的算法,本文提出的基于景点兴趣主题模型的精准搜索方法在准确率指标上提升了 22%;得到搜索结果后,从多个角度展示景点知识,使用户能更好地了解景点信息。实现了图像搜索,通过文本和图像等跨媒体样例来理解用户检索意图。通过对用户的浏览行为赋予不同的权重系数,将景点的兴趣主题分布映射到用户的兴趣主题分布,以准确反映用户当前的信息需求,从而实现用户兴趣发现和个性化景点推荐。(3)提出了基于用户情境信息的旅游地点主动推送方法。针对用户情境信息的特点,建立了旅游地点推送概率模型(CLPM),提出了旅游地点快速推送算法(CTLFP)。对PrefixSpan算法进行了改进,实现了有效的频繁序列模式挖掘。通过构建旅游地点推送前缀树,实现了旅游地点的快速、准确推送。实验结果表明,相比最近流行地点推送算法和基于用户游览历史的旅游地点推送算法,提出的CTLFP算法在旅游地点推送准确率指标上有了较大提升。(4)设计和开发了面向跨媒体旅游大数据的精准搜索与主动推送系统。该系统分为精准搜索模块与主动推送模块。其中精准搜索模块包含兴趣主题搜索、主题查询扩展、景点知识摘要、用户画像、景点个性化推荐等功能。主动推送模块包含频繁序列模式挖掘、旅游地点主动推送等功能。系统功能全面,并实现了友好的用户交互界面。