论文部分内容阅读
在网络飞速发展的今天,海量的信息让人们感到迷惑,这种局势使得推荐系统成为了个性化研究领域的热点。协同过滤算法则是推荐系统中使用得最多、最成功的算法。由于相似度计算在协同过滤算法中的重要性,本文通过研究相似度计算方法的手段来提高协同过滤算法的性能。
本文主要研究协同过滤算法中相似度计算方法。针对目前协同过滤算法面临的矩阵稀疏、用户冷启动问题,提出了混合相似度的计算方法,该方法是将改进后的PIP相似度计算方法与传统的相似度计算方法组合起来,并应用到协同过滤算法中。当用户评分达到一定数量时,传统的相似度计算方法还是能很好的反映用户之间的相似程度,为使PIP方法与传统的方法有效的结合,必须找到一个用户评分数量的临界值。当用户评分数量小于这个临界值时,使用PIP方法计算相似度;当用户评分数量大于这个临界值时,使用传统的相似度计算方法计算。
提出了划分相似度的概念。将原来的相似度划分为三个部分:喜欢相似度、不喜欢相似度、中性相似度,再通分配权重方式,将三种类型的相似度组合起来得到最后的相似度。由于喜欢相似度和不喜欢相似度较中性相似度更能反映出用户之间的相似度程度,在将它们组合起来的时候采用了合理的权重系数分配方法。实验证明,划分相似度的计算方法更能反映出用户之间的相似程度。
目前协同过滤算法中的相似度计算忽略了大量有用的信息,针对这一情况,提出了考虑用户客观信息的相似度计算方法。该方法提出两种用户模型:用户基本模型和用户喜好模型。使用某种方法将两个模型量化后,分别计算出用户之间两个模型的相似度。根据两个模型相似度的和,找出目标用户的伪邻居,目标用户再和伪邻居进行评分的相似度计算,计算评分相似度时考虑了目标用户与伪邻居相似的延续性。同时,由于伪邻居概念的提出,本文对伪邻居规模的选取也做了深入的讨论。