SimRank算法的优化与改进

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:lilunyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的不断发展,Internet为用户提供越来越多的信息和服务。在目前的网络和电子商务环境下,推荐系统得到了广泛的应用,相似度计算作为推荐系统中重要并且基础的技术,在协同过滤、链接预测、分类等领域中发挥着重要的作用。  相似度计算方法主要分为基于内容、基于链接以及内容和链接混合三种。基于内容相似度计算的研究较为成熟,其代表为向量空间模型(VSM)。基于链接的相似度计算早在二十世纪六十年代被提出,直到2002年斯坦福大学的研究者提出SimRank算法后链接相似度计算才得到长足的进步,并在近十年间如火如荼的发展、完善。  针对目前大量的链接相似度计算的大量算法,根据理论模型、算法性能等标准进行分类,接着对各类典型算法进行描述、分析和对比,并对其存在的问题进行分析和总结。  经典SimRank算法在迭代计算的过程中基于这样的直觉:如果两个对象指向相似的对象,那么这两个对象很可能相似。理论方面建立在随机游走模型基础之上。但该算法也暴露了一些缺点:计算时空复杂度高并且只能全局计算。本文的研究动机正来自于此,首先针对第一个缺点提出了Top-k SimRank算法,通过理论上界分析将每次迭代计算后不可能进入Top-k候选集的节点对锁定,从而在精确度损失不大的情况下大幅提升计算时间。然后针对第二个缺点提出了Local SimRank算法,通过给定节点对快速构建一个节点规模较小的子图,在这个子图上使用SimRank计算给定节点对的相似度得分来近似全图中对应节点对的相似度得分。同时给出了SimRank算法演示系统,集成了大量算法以及实验数据集,为用户提供更好的体验。  最后,给出了该领域的研究热点、难点、不足和有待解决的一些问题。上述工作将为基于链接的相似度计算等研究提供有益的参考。
其他文献
随着信息技术的大力发展,人们所拥有的信息量也在不断的增加。对于大量的信息数据来说,如何获取隐含在数据中有价值的内容,是人们所关心的问题。可视化技术就是将科学计算中产生
本论文主要研究了期权定价模型中的反问题,即波动率校准问题的数值方法。这是一类具有广泛应用价值的问题。此类反问题是根据不同执行价格和不同到期日的期权市场观测价格来确
海洋对全球气候的变化起着主要的影响,雷达高度计是开展大地测量学,海洋动力学研究的重要工具。针对雷达高度计进行的定标工作也成为雷达高度计研究的十分重要的组成部分。 
本文是以“教育科研基础设施IPv6技术升级和应用示范——重点学科信息资源系统IPv6升级”项目为研究背景,该项目是中国下一代互联网示范工程(CNGI)项目中的子项目,其内容为基于
近年来,数字化医疗与医疗信息化成为当代医疗卫生健康领域的重要发展方向,医学领域得以快速发展的同时,医疗卫生服务体系也面临很多严峻的问题。因此传统医疗数据的表示和迁移,以
无线传感器网络(Wireless Sensor Networks,WSN)是当前信息科技领域的多学科交叉的研究热点之一,广泛用于物联网、环境监测、军事侦查等等领域。无线传感器网络(Wireless Senso
随着互联网技术的普及发展、网站数量迅速增长,网页篡改问题日益严重。传统的网页防篡改技术主要采用Hash函数的方法进行网页完整性检测,该类方法在性能、安全性等方面显示出了
Web2.0时代,由于用户参与程度的提高,网络信息量增长迅速,使网络成为一个由用户和信息构成的复杂生态。这个复杂生态像黑洞一般,有着巨大的吸引力,将人们吸附在一起,编织在一起,已成
可信性是软件的重要属性之一,软件可信的研究是可信计算在软件方向上的一个分支。随着人们对软件产品的依赖程度不断加大,对软件必然会提出比传统的质量和标准更高的要求,也
和磁盘相比,闪存作为一种新型的存储设备,具有读写速度快、抗震、省电、体积小等优点,已经在大量的电子设备中被广泛的应用,比如在最新的手机,数字照相机,DV,MP3,MP4,PSP,PDA,笔记本电脑