论文部分内容阅读
随着互联网技术的快速发展和大数据、云计算时代的到来,海量资源的产生使“信息负载”现象日益加重,导致消费者难以从中筛选出有价值的资源,同时造成网络中的大量资源由于利用率低而成为长尾数据。因此如何帮助用户从海量数据中快速高效地发现所需信息,提高用户体验,也一直是近几年互联网领域研究的热点。而推荐系统的诞生帮助用户改善了这个问题。为了适应不同场景下的资源推荐,推荐技术也处于不停的改进和更新中,其中协同过滤推荐是迄今为止应用最广泛也是最成功的技术之一,但是仍然存在一定的局限性。本文在传统协同过滤推荐的基础上,对其存在的问题进行深入分析和研究。本文的主要研究工作如下:(1)传统协同过滤推荐中推荐精度不高主要是由数据严重稀疏引起的,而在传统用户相似度度量中只考虑用户之间共同评分的数量,忽略评分之间的差异,导致推荐效果不理想。针对这个问题,本文引入信息论中的信息熵,考虑用户之间评分差异的影响,通过计算用户差异度的熵值,提出基于信息熵的相似度计算方法。(2)为了提高最近邻居集合的精确度,本文综合考虑用户共同评分项目数量和评分数值的影响,将基于信息熵的相似度度量方法和传统协同过滤算法中的皮尔逊相似度计算方法进行线性加权,得到加权相似度计算方法。(3)针对传统相似度计算中忽略用户兴趣度的问题,本文在加权相似度的基础上,结合用户评分数值变化趋势,引入用户的兴趣度,提出融合信息熵和兴趣度的相似度计算方法,以此来提高推荐质量。最后为了验证提出的相似度计算方法是否有效,将算法应用于MovieLens等公开数据集进行实验,并设置与传统的协同过滤算法的多组对比实验。实验结果表明,综合考虑共同评分数目、评分数值和评分趋势三种因素得到的推荐效果比传统协同过滤推荐有所提升,从而证明了方法的有效性和可行性。