论文部分内容阅读
网络资源的爆炸式增长,加剧了信息过载问题,推荐技术应运而生成为解决这一问题最有效的方法之一,其中的协同过滤推荐,是目前最成功的推荐技术之一。它通过分析与目标用户相似性高的近邻用户的偏好,将近邻用户喜欢的项目推荐给目标用户。尽管协同过滤取得了巨大成功,但却存在数据稀疏性、可扩展性和群组推荐等关键问题,这些问题制约着其进一步发展,因此本文对这些问题展开深入的研究。本文的主要研究内容如下:1.通过改进的TF-IDF构建了用户项目特征偏好矩阵,从而减少了用户项目特征偏好矩阵的维数。针对数据稀疏性问题,引入项目特征,同时考虑用户的兴趣漂移对用户偏好的影响,通过改进的TF-IDF构建用户项目特征偏好矩阵,由于物品的项目特征能从内容方面来表现用户的偏好,且项目的领域特征远少于项目的数量,减少了用户项目特征偏好矩阵的维数。2.针对可扩展性问题,提出一种改进的K-Means用户聚类的方法。该方法通过类间差异度和类内差异度确定最终的K值来解决K-Means方法需要人为设定初始K值的问题。在类内计算目标用户与其他用户的相似度来得到近邻集,并进行预测评分和推荐,提高了效率和扩展性。3.针对传统的协同过滤算法适用于对个体推荐而不适用于群组用户推荐,设计了一种基于用户项目特征偏好和评分来构建群组偏好模型。根据群组成员间的相互作用构建群组评分矩阵和项目特征偏好矩阵,以基于用户的协同过滤算法为基础,将群组用户看成一个虚拟用户,进行相似度计算和预测评分。4.通过引入权重因子的方法,构建了一种综合相似度计算方法。传统的相似性计算是利用用户间共同的评分,然而相似性不仅与用户的评分有关,而且与用户对不同项目特征的偏好程度有关。两者从不同角度体现用户的偏好。因此,使用权重因子将两者结合起来,计算综合相似度。最后将本文所提出的方法与几种常用方法在MovieLens数据集进行实验,从MAE、Precision、Recall三个指标验证本文方法的有效性,从一定程度上缓解稀疏性、可扩展性和群组推荐问题。