论文部分内容阅读
如今已是web2.0时代,不仅数据量、数据类型依旧呈爆炸式增长,网民数量每年也在大幅增长,信息不对称问题依旧是当前的热点问题,对于这一问题的研究也在持续的深入。推荐系统作为解决该问题的重要手段之一,无论在工业和商业上的应用,还是在理论研究方面都是热门领域,推荐算法则是实现推荐系统的核心内容。目前推荐算法中应用最广泛的是协同过滤推荐算法,然而该算法存在很严重的数据稀疏性问题,影响着评分预测的准确性。本文针对协同过滤算法中核心的两个步骤进行改进,利用标签数据建立用户和项目间的联系,降低数据稀疏性带来的影响,提高评分预测的准确性。本文在以下几个方面展开了研究:1.为了解决一种特殊的数据稀疏性问题,即用户冷启动问题,对协同过滤算法中的第一个步骤——计算近邻用户集合进行了改进。在基于模型的协同过滤算法的概念基础上,将标签数据作为用户的属性特征,提出一种将标签数据与朴素贝叶斯分类算法结合的算法。本文利用统计学和概率论的思想建立用户和标签之间的关联,从而更准确地表达用户的偏好信息。并将用户和标签之间的关联与朴素贝叶斯分类算法相结合,实现对目标用户的近邻用户的计算,以及对新用户进行类别的匹配。此外,考虑标签的扩展性和时间上下文信息这两个因素,进一步降低数据稀疏性带来的影响。最后设计实验,通过对比不同算法的RMSE值来验证提出的算法能够提高目标用户近邻用户集的质量。2.为了进一步提高评分预测的准确性,针对协同过滤算法中的第二个步骤——评分预测,通过用户-标签、标签-项目间的关系对评分预测方法进行改进。利用标签数据能够更准确地表达用户对项目产生评分的原因这一特点,将用户-标签间的关联、标签-项目间的关联作为两个独立的影响因子,在进行加权求和后作为一个权重因子,再加权到传统评分预测方法中。最后设计对照实验,以RMSE、准确率、召回率和覆盖率作为测评标准,将本文提出的算法和其他算法进行对比。通过实验验证了改进后的评分预测方法,能有效提升评分预测准确性,并且将上述两个研究内容的方法进行结合后再进行对比实验,结果表示,结合后产生的评分预测值更加准确。