论文部分内容阅读
随着经济社会的发展,旅游成为人们日常生活中重要的组成部分。无论是周末的出行还是节假日的旅游,人们往往在下一次旅游出行目的地以及相应路线安排上投入了大量时间精力,期望收获性价比高、体验感好的旅行体验。而网上五花八门的旅游攻略和琳琅满目的旅游商品消耗了用户大量的时间,大大提升了用户的决策成本,降低了用户的旅游前体验。于是如何更好地利用网上用户过往的游览路线、评论、图片等多维度信息,经过加工处理、提炼整合,为现有用户服务呢?本文提出了一种解决方案。本文基于“带着微博去旅行”这一平台的用户数据,选取了北京、上海、成都、杭州、西安、重庆、大连、香港共8个目标城市,从无到有实现了一个基于“用户画像”与“城市画像”的个性化旅游推荐系统。首先,本文对爬取到的原始数据进行了加工处理,使之成为有价值的能够被系统所利用的信息,这一阶段实现的是“用户画像”以及“城市画像”。构建用户画像,第一步是通过将用户的基本属性数据标签化,得到“年龄、性别、星座、身份属性”等人口标签,另外基于语义匹配规则提炼出“摄影爱好者/美食爱好者/时尚达人”等族群标签,第二步是根据用户在某一景点发表的评论文本以及景点定位数据,得到用户的旅游类型标签,进一步丰富用户画像。城市画像的构建主要围绕两个维度展开:第一个维度是根据用户微博的配图得到8个城市的图片集,通过在百度EasyDL平台上训练图片分类模型,预测8个城市的图片在现代化元素、传统元素、自然风景、美食等9个标签上的分布,实现图像维度的城市画像。第二个维度是从用户文本出发,按城市聚合根据TextRank关键词提取技术得到每个城市在名词、形容词、动词上的TOP30关键词,实现文本维度的城市画像。按景点聚合得到每个景点下的评论文本,分别获取景点关键词,基于语义匹配规则可得到景点与不同旅游类型的映射关系,通过遍历文本得到各景点在各旅游类型上的热度分布,实现景点画像,再汇总统计每个城市在各旅游类型上的分布,得到旅游类型维度的城市画像。在这个过程中,本文提出了几种计算城市、景点、用户内部相似度的参考维度,并结合欧式距离、Jaccard距离以及余弦相似度等相似度计算方法进行了实现,具体有:1.根据图片标签分布、文本关键词以及该城市景点的旅游类型分布来计算城市之间的相似度;2.根据用户的人口标签、族群标签与旅游类型分布计算用户之间的相似度;3.根据景点关键词或在各旅游类型上热度分布计算景点间的相似度;其次,本文基于以上工作搭建了一个简单的个性化旅游推荐系统,即利用信息推荐算法实现用户与旅游系统的交互,通过获取用户的旅游需求以及个人的外显和内隐的行为数据,然后根据旅游的约束条件,为用户直接推荐最合适的旅游景点,帮助用户快速决策。具体方法有基于内存的协同过滤推荐,基于内容的推荐,基于人口统计学的推荐,基于标签的推荐以及基于知识的推荐,此外还有基于兴趣关键词搜索的推荐。本文详细地说明了各种推荐方法的推荐设计、应用效果、局限性以及改进方向。但由于本文清洗后有效用户数据量有限,导致用户-景点矩阵非常稀疏,很难通过交叉验证等方法实现推荐指标的度量,但本文展示了一种如何充分利用用户各维度的历史旅行数据,搭建个性化旅游推荐系统的思路以及相应的技术实现,并围绕实现目标、优势与应用价值以及应用局限性进行了比较分析。在应用与展望部分,本文提出基于个性化旅游推荐系统,搭建一个小型的智能交互式旅游推荐公众平台,为解决实际旅游推荐场景提供可行性。最后,本文利用城市画像、用户画像对城市形象进行分析,从旅游推荐延伸到旅游目的地的城市形象建设,基于用户在有影响力的社交媒体平台上发表的内容,挖掘用户对城市形象的感知,并针对旅游城市形象建设以及旅游开发提出了相关建议。