论文部分内容阅读
近年来,随着互联网技术的发展,推荐系统技术运用到各个领域,对各种推荐算法的研究也随即产生,其中基于用户评论与评分的推荐算法应用到许多存在用户评论信息的在线推荐系统中。推荐系统的中心是给需要的用户做推荐,因此构建用户兴趣偏好模型是必不可少的一步。在构建用户模型时,用户评论数据量大且没有中心话题,如果评论数据不经过任何处理而直接用在构建模型上将会使推荐效率低且无法有效快速地捕捉到用户的偏好所在。另外,由于用户的偏好并不是一层不变的,会随着时间变化,但是以往学者在分析用户评论和评分时没有考虑到这个因素,从而致使推荐质量欠佳,推荐实时性差。因此,从用户评论和用户评分中提取出用户的偏好,并通过评论时间对用户偏好进行动态分析,将具有非常重要的理论研究与实践应用价值。用户偏好模型的建立通过分析用户评论和评分来获取信息,但是这些数据量极大,获取和迅速分析这些数据量庞大的信息难度很大,实现起来困难重重。因此,通过总结相关研究发现,用户偏好模型的建立一般可以通过关键词表示法和主题表示法。关键词表示法通过分析一些和用户日常行为偏好有关的关键字词来表示;主题表示法主要是在构建用户的兴趣偏好时通过用户的评论信息资源主题类型词来表示。根据本文的研究内容,本文采用主题表示法构建用户偏好模型。但是,仅仅通过主题表示法所构建的偏好模型是静态的,此模型并不能根据时间的变化对用户偏好快速做出调整。因此,若想要追踪用户动态的偏好,还需要进一步的研究。针对以上所诉面临的挑战,本文分析研究了国内外学者对基于用户偏好的推荐算法的相关整理之后,在已有的结合用户评论和评分的推荐算法上进行创新。本文的主要研究工作如下:(1)在分析用户评论构建偏好模型时,对评论数据集进行了基于LDA(Latent Dirichlet Allocation)的主题模型分析,得出评论的文档-主题分布向量和主题-词分布向量,便于下一步准确地构建用户偏好模型。(2)考虑到用户的偏好是随时间变化的,所以在基于主题模型的基础上,加入了非线性遗忘时间函数,提出了基于主题模型和遗忘时间函数的混合偏好模型。(3)当考虑到用户对物品的情感态度时,通过用户对该物品的评分的大小来间接反映。由于用户在不同的时间段对相似物品的评分是不一样的,所以,必须通过一定的方式区分出评分的衡量效果。因此,本文在用户评分上加入了指数时间函数,不同用户对相类似的物品的评论时间间隔越短,那么评分对该用户的印象力将会变得越小。(4)提出来结合用户评论和用户评分的协同过滤算法,并在Amazon网站的6个数据集上进行实验。通过本文的研究,最终得出以下结论:(1)当数据量庞大时,为了获取和迅速分析用户信息资源,可以通过LDA主题模型进行信息聚类,快速获得用户的偏好。(2)通过数据集的验证,在基于用户评论和评分的用户偏好模型中加入评论时间可以提高预测准确率。(3)将本文提出的算法和其他学者提出的算法在同一个Amazon电子评论数据集上做实验,本文的算法在预测准确率上有较大的提高。