论文部分内容阅读
用户在电子商务网站上消费后会进行购物反馈,反馈包括数值评分和文字评论两部分。评分信息作为推荐系统中的预测目标,一直扮演着重要的角色。而反馈的另一部分,文字评论却并没有受到同等的关注,甚至是最近几年才有研究者开始进行评论分析和打分预测相结合的研究。评论文字的信息量是用户其他行为数据(如购买、打分、点击、浏览等)的数倍以上,对评论文字进行分析是提高推荐效果的重要方法。用户的评论中会包含多个方面的信息,包括对于购物的感受、物品的特征、用户自身的特征等,这些信息可以帮助研究人员快速准确地建立用户档案、物品特征向量等数据模型,并据此进行推荐。其中和用户打分相关性最高的是用户的购物感受,用户会在评论中表现出一定的情感倾向,而这些情感倾向会和评分产生紧密的关联。情感倾向正面的评论表示用户会给出较高的评分,反之亦然。评论中还有物品与用户的特征信息,这些信息也会帮助分析物品的特征和用户的喜好,能够帮助推荐模型获得更好的效果。使用电商用户评论的现有研究存在如下问题:一是这些研究着眼于特征或方面,需要大量的人工标注,并且在物品类型发生改变的情况下需要重复工作;二是研究者们只考虑了评论中的特征而忽略了用户在评论时的情感倾向;三是一些研究使用LDA进行主题分析,他们获得的主题的可解释性较差;四是部分研究在求解概率模型时使用了极大似然方法,容易陷入局部最优解并且过于依赖初始参数。本文提出了基于评论情感的生成模型和推荐系统,分析评论中的用户和物品信息,并使用这些信息进行推荐。本文主要做了以下几方面研究工作:(1)提出一种评论预处理方法,将用户在系统中的所有评论聚合为用户评论集合,将物品获得的所有评论集合为物品评论合集,再对物品评论集和用户评论集进行分析。之后对文本中的情感进行了分析,并根据情感分析算法进行情感标注。(2)提出了评论文本生成模型,认为评论中的单词是从背景词库、情感主题词库或者特征主题词库中生成的,文本对应的主题分布能够代表文本的特征。本文从特征和情感两个角度来看待评论中的信息,每种信息都对最终评论的生成产生了影响,通过引入背景词库的方式降低背景单词造成的干扰,使用吉布斯采样对模型中的参数进行估计。(3)使用真实数据集对模型的预测准确性进行验证,并与其他推荐算法进行对比,使用RMSE作为评价指标与其他推荐算法进行对比。实验数据表明本文提出的模型推荐效果相比于其他算法有明显的提高。(4)基于以评论情感为基础的推荐系统,设计并实现了电商网站原型推荐系统。系统主要功能包括用户的注册、登录、购物和反馈,系统会收集并分析用户的行为数据和反馈评论,对用户进行个性化推荐。本文首先介绍了基于评论的推荐系统的研究意义,分析了使用用户评论研究的现状和存在的问题,提出了本研究的技术路线,然后对本文提出的模型进行详细地研究和设计,包括模型的参数、概率图模型和参数估计方法,并使用真实数据集进行实验验证模型的准确性。最后设计并实现了原型电商网站,展示了模型在真实世界中的应用场景。