论文部分内容阅读
推荐系统是解决信息过载问题的有效方案,已经广泛应用于电子商务、社交网络、音乐社区和电影社区等领域。近年来,协同过滤推荐技术,因其思路简单易实现、数据依赖性低、推荐结果准确等优点,已经成为推荐系统领域中应用最为广泛的技术之一。协同过滤推荐系统主要分为基于内存的方法和基于模型的方法,但是这些算法都有稀疏性、冷启动和扩展性等问题。本文主要为缓解数据稀疏性问题展开了如下工作:(1)提出一种新颖的基于项目候选集的协同过滤算法(CI-CF)。CI-CF算法基于用户协同过滤,引入用户之间的非对称影响度和支持度,并考虑到用户对项目的偏好程度,提出了项目候选集的概念,同时利用项目信息熵对未评分项目集合进行二次修正,得到候选项目集合。基于MovieLens和netflix数据集的实验表明,相比近三年来多个比较流行的算法(如:AC-PCC算法,RA-CF算法),CI-CF算法在推荐结果的准确率、召回率和F1值上都具有较大的优势,有效地降低了用户评分稀疏性问题带来的负面影响,显著提高了推荐系统的推荐质量。(2)提出了基于好友关系和标签的混合协同过滤算法(FT-CF)。首先分析好友之间的关系网络,通过关系传播机制快速寻找关系网络中与目标用户兴趣爱好相似的用户,并找到符合目标用户需要的商品;然后,利用TF-IDF的思想,从用户历史标签记录中挖掘该用户的兴趣爱好;最后将两者有效地结合,以进一步缓解数据的稀疏性问题。基于lastfm数据集的实验表明,FT-CF算法比近三年来较流行的算法(如:PRT-CF算法和UCTRA算法)在准确率和召回率上都具有较大优势。(3)全面总结了对使用标签信息数据、评分数据和用户/项目属性数据等不同种类数据信息的算法,并详细介绍、实现和实验比较了基于标签和协同过滤的个性化资源推荐、基于近邻双聚类的协同过滤top-N推荐系统和基于耦合对象相似度的项目推荐算法。基于MovieLenslOM数据集的实验表明,当推荐系统获得用户/项目的信息越多,我们对用户的了解就越多,就越容易把握用户的兴趣爱好,所以将多方面的数据信息进行有效的融合,有助于提高推荐系统的推荐质量。