论文部分内容阅读
随着互联网的快速发展,信息超载问题变得愈发突出,用户无法快速从大量的网络信息资源中获取对自己有用的信息,导致信息的使用效率降低。推荐系统作为一种信息过滤的重要手段,有效的解决了这些问题,现在推荐系统的应用已越来越广泛。协同过滤是推荐系统最有代表性的技术之一,具有很强的应用价值,它的基本思想是通过分析用户和项目的历史数据,找到目标用户或项目的相似邻居,再根据相似邻居的评价产生目标用户或项目的预测结果。然而,由于历史数据的稀疏性,导致传统协同过滤算法的推荐准确度大大降低;此外,随着用户和项目数量的增长,实时性、可扩展性等问题也使协同过滤的发展受到一定的限制。针对上述问题,本文主要在以下几个方面进行了探索和研究:(1)针对数据稀疏导致相似性度量不准确的问题,首先提出了增强的皮尔森相关相似性度量方法(EPCC),该方法综合考虑了用户或项目间共同评分和所有评分的差异,使得相似性度量更加准确。其次,为了进一步缓解原始评分矩阵的稀疏性,提出了基于评分和特征融合的相似性度量方法,该方法利用SVD技术挖掘用户和项目的潜在特征并把原始评分和特征进行融合,再根据融合后的评分-特征向量度量用户或项目的相似性,特别的,该算法采用中融合的方式可以动态的平衡评分和特征之间的重要程度。实验结果表明,本文提出的相似性度量方法可以有效的提高预测准确度;(2)针对传统邻居选择算法存在的问题,本文对邻居的相似大小和邻居的数量进行分析,提出了一种改进的近邻选择算法——基于信任区间的k近邻优化算法。实验结果表明,该算法可以在时间复杂度几乎不增加的情况下选择更优的近邻进行推荐,从而提高了推荐精度;(3)为了充分结合用户和项目的预测以提高推荐准确度,提出了基于用户和项目混合的协同过滤算法。通过分析邻居数对预测的影响,本文算法在用户-项目二维邻居集中选择用户最近邻和项目最近邻,并把选择的近邻数作为混合用户和项目预测结果的重要程度。此外,在预测部分,考虑到规模评分和真实评分的差异,提出了区间匹配的预测方法,该方法先预测目标用户或项目的值区间,再根据预测值区间匹配来确定最终的预测值。实验结果表明,本文提出的混合算法有效的缓解了数据稀疏,进一步提高了预测的准确度。