论文部分内容阅读
网络技术的迅猛发展带来了信息过载问题,个性化推荐系统的出现有力改善了这一问题。但是随着用户个性化需求不断提高,传统个性化推荐存在的不足也逐渐显现出来,主要表现为传统个性化推荐主要依赖于用户评分数据,把评分预测作为推荐的最终目标,出现了推荐质量不高、冷启动和数据稀疏性问题。研究发现,真正要实现精准的个性化推荐必须以深刻理解和刻画用户特征为前提。用户画像(User Profile,UP)技术是根据用户的社会属性和消费行为等信息而抽象出的一个标签化的用户模型,是用户特征和信息的标签化表示。推荐系统根据用户画像信息可以真正了解用户需求,从而实现高精度的推荐。因子分解机(Factorization Machine,FM)作为矩阵分解拓展得到的模型,旨在解决稀疏数据下的特征组合问题,能有效解决推荐算法中存在的数据稀疏问题。因此,本文的核心工作是研究构建用户画像技术,并将用户画像和因子分解机模型相结合,提出一种基于用户画像和因子分解机的推荐算法,从而有效解决数据稀疏问题、提高推荐质量。本文的主要工作和贡献有以下两点:(1)针对传统构建用户画像方法没有考虑用户属性和用户兴趣之间有较强关联性的不足,本文提出一种结合主题模型和用户属性的用户画像建模方法。首先从用户的评论信息中挖掘出用户隐含的自然属性信息和兴趣偏好信息;接着通过对主题模型的深入研究,提出LDA-JSD(Latent Dirichlet Allocation-Jensen Shannon Distance)方法,根据用户兴趣从语义层面进行用户聚类;然后提取用户群体的特征,得到每个用户群体中心用户的自然属性和兴趣之间的关系,使用户画像模型更加准确和个性化,最终得到改进的用户画像模型,为个性化推荐和精准营销提供基础。(2)针对传统个性化推荐的回归预测模型都是将各个特征独立考虑的,忽略了大量特征之间的交互关系,最终导致推荐质量不高的问题,本文提出一种基于用户画像和因子分解机(UP-FM)的推荐算法。结合FM模型可以解决稀疏数据下的特征交互和高质量预测的优点,并针对该模型进行线性分解时使用离散化信息抽取的特征表现效果更佳的特点,将用户画像信息提取到的多维特征引入到FM建模中。并且还提出了触发主题词的概念,从语义方面有效的将用户画像和被推荐物品之间潜在的因素关联起来,有效地解决数据稀疏问题。最终通过在真实的数据集上做实验,证明了本文提出的UP-FM推荐算法的有效性和合理性,能显著地提高推荐质量。