论文部分内容阅读
随着Internet的不断发展,Internet为用户提供越来越多的信息和服务。在目前的网络和电子商务环境下,推荐系统得到了广泛的应用,相似度计算作为推荐系统中重要并且基础的技术,在协同过滤、链接预测、分类等领域中发挥着重要的作用。 相似度计算方法主要分为基于内容、基于链接以及内容和链接混合三种。基于内容相似度计算的研究较为成熟,其代表为向量空间模型(VSM)。基于链接的相似度计算早在二十世纪六十年代被提出,直到2002年斯坦福大学的研究者提出SimRank算法后链接相似度计算才得到长足的进步,并在近十年间如火如荼的发展、完善。 针对目前大量的链接相似度计算的大量算法,根据理论模型、算法性能等标准进行分类,接着对各类典型算法进行描述、分析和对比,并对其存在的问题进行分析和总结。 经典SimRank算法在迭代计算的过程中基于这样的直觉:如果两个对象指向相似的对象,那么这两个对象很可能相似。理论方面建立在随机游走模型基础之上。但该算法也暴露了一些缺点:计算时空复杂度高并且只能全局计算。本文的研究动机正来自于此,首先针对第一个缺点提出了Top-k SimRank算法,通过理论上界分析将每次迭代计算后不可能进入Top-k候选集的节点对锁定,从而在精确度损失不大的情况下大幅提升计算时间。然后针对第二个缺点提出了Local SimRank算法,通过给定节点对快速构建一个节点规模较小的子图,在这个子图上使用SimRank计算给定节点对的相似度得分来近似全图中对应节点对的相似度得分。同时给出了SimRank算法演示系统,集成了大量算法以及实验数据集,为用户提供更好的体验。 最后,给出了该领域的研究热点、难点、不足和有待解决的一些问题。上述工作将为基于链接的相似度计算等研究提供有益的参考。