论文部分内容阅读
如今,web上的信息量巨大,然而用户想要获取自己需要的信息却越来越困难。协同过滤推荐作为成功的个性化推荐技术,得到了广泛使用。协同过滤分析用户的行为,不关心信息的实际内容,通过收集与用户兴趣爱好相同的其他用户的评价信息来产生推荐。然而,传统的推荐算法存在数据稀疏情况下相似度计算不准确,以及冷启动、可扩展性问题,影响了推荐系统的应用和推广。本文从理论上研究了协同过滤推荐技术的基本原理、实现步骤、常用算法及其分类,特别介绍了经典的基于用户的协同过滤推荐算法以及广泛使用的基于项的协同过滤推荐算法。在归纳了不同的推荐策略下相似性度量方法的计算公式后,通过实验分析和比较了在稀疏数据下,相关相似性、余弦相似性和调整的余弦相似性在精准度、预测异常值以及相似度值大小等方面的不同,给出了余弦相似性更为准确的结论及原因。针对传统相似性度量方法在稀疏数据下共同评分项目少,预测准确度低的问题,提出了改进的基于项目均值加权预测的协同过滤推荐算法。实验证明,改进算法在相似度计算上比传统相似性度量方法更为准确。针对推荐系统中随用户和项目增大而出现的可扩展性问题,提出了一种基于聚类的推荐方法。在离线部分采用在基本k-means聚类基础上,针对协同过滤推荐中用户—评分数据特点而改进的GKCF聚类算法;在线部分使用聚类后的新用户空间,首先计算新用户空间中的虚拟用户与目标用户之间的相似度得到目标用户近邻,再利用这些近邻对目标用户未评分项目进行预测,从而向目标用户产生推荐。由于聚类离线完成,因而可以有效地提高系统的实时响应时间。