论文部分内容阅读
在社会全面信息化的过程中,网络数据量的几何式增长引发了网络中充斥大量冗余信息,导致信息利用不够充分,效率低等问题。为了更加充分有效的使用互联网信息,推荐系统由此产生。推荐系统的核心部分是偏好预测算法,通过对用户行为的历史数据对用户信息进行处理、分析、计算,从而预测用户行为,对用户进行个性化推荐。在用户需求不明确的情况下,推荐系统非常具有研究意义。在学习研究已有推荐算法的结果的基础之上,本文提出了几种新的方法,并进行对比讨论,具体工作如下:第一,综述个性化推荐系统研究背景,讨论个性化推荐的常用协同过滤算法。对比分析几种常用协同过滤算法的共性和特性,为新提出的算法做铺垫。第二,本文针对用户偏好预测问题,提出了基于fkNN的平均偏好权重预测模型(Average Preference Weight,APW)。首先,该模型的核心为指标项目置信度,被定义为项目之间的相对评分误差的补(用1.0减去这个误差)。任意两个用户之间的置信度是由他们共同评价的项目以及评分所共同决定的。当他们对于某个项目的评分相等时,用户之间的、基于该项目的置信度为1。其次,被两个用户所共同评价的项目往往不止1个。因此,本文将所有共同评价项目下的置信度的期望作为两个用户之间真正的偏好权重,即APW。然后,在fkNN框架下,本文重点关注的是目标用户和它的任意邻居之间的APW,它具备指向性,即是邻居对目标用户的权重值,而不是反过来。最后,由于APW关注的是目标用户及其邻居之间的权重,因此能够与灵活、自然地与所有求解邻域的技术相结合。本文重点讨论了基于余弦,皮尔逊,欧氏距离相似度的6大技术。第三,提出基于kNN的项目引力推荐算法(Item Gravity Recommendation,IGR)。类比“万有引力”公式,提出了 3种新的项目质量定义。当一个项目被越多的用户评价,它本身的质量就会越大。引入了两种经典距离公式,即欧氏距离和曼哈顿距离。依据两个项目的质量和距离,便能获得两个项目之间的引力,其值越大,说明两个项目越相似,反之亦然。IGR赋予了项目相似度度量的真实物理意义,具备更好的可读性和解释性。最后,本文通过采用MovieLens公开数据集的943个用户对1682部电影的rating数据在不同的权重算法上进行对比实验,使用平均绝对误差(MAE)和均方根误差(RMSE)为指标,将原有推荐算法与改进的6种算法对比,验证算法的有效性,并测试IGR算法性能。实验结果表明,部分基于kNN的APW算法修改后效果好于原算法。平均偏好权重融合后的算法在一定程度上能够改进已有算法。