论文部分内容阅读
在当今这个信息过载的时代,如何有效地选择和推荐满足用户需求的信息,已经成为服务计算领域的关键问题之一。推荐系统能有效地减轻用户的认知负担,为其提供个性化的服务和信息。协同过滤推荐系统是现有推荐系统中最流行,应用最广泛一种。基于邻域的协同过滤推荐系统是最早出现的协同过滤系统,因其简单、高效及可解释性好,可扩展性和稳定性强等特点,被广泛应用于商业系统之中。其主要思想是根据近邻的喜好来产生推荐,没有近邻就无法进行推荐。近邻的选择是通过度量彼此之间的相似度来完成的。现有的相似度计算方法是通过比较评价矩阵中两个向量的共同评价部分得到的。没有共同评价就无法度量相似度,从而导致无法推荐。在实际应用中,评价矩阵的稀疏性往往导致共同评价部分过少甚至没有,造成现有的相似度度量方法会出现计算不准确甚至无法计算的问题。本文针对现有的相似度计算方法中存在的计算不准确,不完整,以及无法计算的问题,展开一系列研究工作,主要的研究内容和创新性可以归纳为以下几个方面:(1)本文提出了一种整体性相似度计算方法。现有的相似度计算方法是通过比较共同评价而不是所有评价得到的。评价数据的稀疏性会导致共同评价部分往往较少,由此造成所得到的相似度只能反映出局部的相似性,而与其实际整体的相似性存在偏差。用户和物品评价矩阵越稀疏,共同评价就越少,相似度偏差也越大。为此,我们将所有评价的整体相似度和原有的共同评价的局部相似度相结合,提出一种新的相似度度量方法,并在此基础上对其准确性做出进一步改进。该方法能保持其原有方法的简单性和高效性。实验结果表明,新的相似度计算方法产生的推荐结果比现有方法更准确。(2)本文提出了一种传递相似度计算方法。基于邻域的推荐方法是依靠相似的近邻来产生推荐的,而近邻的选择则是根据相似度来筛选的。用户和物品评价矩阵的稀疏性会导致共同评价部分非常稀少甚至没有。没有共同评价部分就意味着相似度无法度量,无法度量相似度也就无法选择近邻,最终导致无法产生推荐结果。对此,我们采用“朋友的朋友是朋友”的策略,将两个无法直接度量相似性的用户或物品,通过与第三方的相似关系,间接地计算出双方之间的相似性。该方法不仅可以处理因为没有共同评价而无法度量相似度问题,还可以修正因共同评价过少而造成相似度不准确的情况。实验结果表明,传递相似度计算方法是有效的,尤其是在评价非常稀疏时,能产生更多的推荐结果,对现有相似度计算方法是一个很好的补充。(3)本文提出了一种基于负相关的相似度计算方法。基于邻域的协同过滤推荐系统中通常都是采用基于相关性的相似度计算方法,由此得到相关性有正相关和负相关。正相关可以直接反映出两个用户或两个物品之间的相似关系相似度,因此被认为是可靠的相似度。而负相关由于不能直接反映出相似关系而往往被过滤掉。没有正相关就意味着相似性无法计算。对此,在两个用户或物品因为没有正相关而无法度量其相似性的时候,我们采用“敌人的敌人是朋友”的策略,通过负相关找到“敌人”的“敌人”,并将其作为自己的朋友来产生推荐。该方法可以应对因没有正相关性而无法度量相似度的问题,同时也可以修正因共同评价过少而正相关相似度不准确的情况。实验结果表明,该方法能产生更多的推荐结果,尤其是在正相关相似度不准确或无法获得时,是一个很好的补充。