论文部分内容阅读
近年来,随着网络技术的高速发展以及“个性化”思想的提出,传统的推荐系统已无法满足人们的需求,各大电商平台为抢占先机,纷纷推出自己的个性化推荐系统。个性化推荐系统,顾名思义,就是通过挖掘用户信息,针对不同的用户,返回因人而异的结果列表。但是,在现实生活中,出于隐私保护的问题,这些推荐系统往往无法获得用户的过多信息,从而也很难实现真正意义上的个性化推荐。如何从仅有的一些信息中挖掘出用户的真实搜索意图,一直是个性化推荐系统研究的热点和难点。目前,个性化推荐系统广泛使用的是协同过滤算法,这种算法虽然在一定程度上能起到个性化的效果,但是在面对现实生活中普遍存在的长尾现象(大多数的数据信息集中在少数用户和项目中)时,通常很难达到预期。本文针对协同过滤算法中评分数目分布不均的问题展开研究,提出了两点改进之处。首先,在计算用户相似度时引入了用户的兴趣偏好,并且在寻找最近邻时采用分布寻找的方法,即设定两个相似性阈值,根据阈值选择最近邻。然后,在评分预测中,通过填充评分矩阵中长尾项目的评分,来弥补评分数据不足带来的推荐误差。算法具体内容如下:(1)针对用户评分数据分布不均的问题,提出了融合用户兴趣偏好的近邻选择协同过滤算法。首先根据用户评分项目的标签,利用TF-IDF的思想,计算用户对标签的兴趣度,构建用户的兴趣偏好向量,从而计算用户在兴趣上的相似性;然后通过设定合适的相似性因子,计算用户在兴趣和评分上的综合相似性;最后根据综合相似性和评分相似性设定合适阈值,选择综合相似性大于设定值,并且评分相似性也大于设定值的用户作为当前用户的严格近邻用户,从而进行评分预测,根据评分将项目推荐给用户。(2)针对大多数项目只有少数评分的情况,对融合用户兴趣偏好的近邻选择协同过滤算法进一步改进,提出了一种常规项目和长尾项目的混合协同过滤算法。在该方法中,首先根据用户和项目的评分数量,将用户划分为活跃用户和不活跃用户,项目划分为常规项目和长尾项目;然后对于常规项目采用融合用户兴趣偏好的近邻选择协同过滤算进行评分预测,对于长尾项目则是先通过预测活跃用户对长尾项目的评分,用于填充评分矩阵中的缺失值,然后再预测长尾项目的评分;最后合并常规项目和长尾项目的评分进行推荐。最后,文中对上述算法进行了实验分析比较。