论文部分内容阅读
在大数据时代,如何从海量的数据中挖掘到自己感兴趣的内容成为至关重要的问题。为了满足用户的个性化需求,需要进行个性化推荐。传统的个性化推荐是根据用户对物品的历史评分、浏览、点击等数据,分析用户的偏好,给用户推荐感兴趣的物品。然而由于数据的稀疏性,对用户的偏好不能很好的建模。随着web2.0的发展,标签的出现为获得用户的偏好信息提供了一个新的数据源,能够更好的分析用户的偏好信息。 现有的基于标签的推荐是通过对用户的打标签数据进行分析,得到用户对标签的语义偏好,然后将偏好信息融入到推荐算法中。然而,在使用标签的过程中,我们发现原始标签存在着由用户差异(文化,地理等)问题,导致的对于同一个语义的不同表达形式,使得用户标签矩阵特别的稀疏。 为了能够更好的利用标签的语义信息,我们提出了基于稀疏标签的偏好模型,通过用户与标签,物品与标签,标签与标签的关系,使用聚类的方式将相同语义的标签聚在一起形成一个主题。分析用户与主题语义的偏好信息,从而降低标签数据的稀疏性。 我们的最终目的是为了使用标签推荐物品,根据我们提出的主题语义偏好模型,我们提出了基于主题语义向量,基于主题语义的扩展协同过滤,基于主题语义传播的三种推荐算法。最后为了能够充分利用单个算法的优点,我们通过集成学习的思想,将多个推荐模型集成在一起,提高推荐的准确度。 为了验证我们的算法,我们抓取豆瓣图书相关的数据。实验表明,在本文提出的基于稀疏标签的语义偏好模型能够更好的反映用户的偏好信息,在我们的模型上实现的集成推荐算法在结果比其他的算法好。