分布式SimRank算法与改进策略的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:liongliong585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实体识别、个性化推荐、社交网络分析和链接预测等多个领域,都会涉及到相似性度量这一问题,即需要衡量出不同对象之间的相似度。SimRank算法是一种常用的相似性度量模型,它基于图的拓扑结构信息来衡量任意两个对象间的相似程度,其基本思想是:如果两个对象被其他相似的对象所引用,那么这两个对象也相似。然而,随着互联网技术的发展,网络数据呈爆炸式增长,图数据的规模也与日俱增。传统的SimRank算法具有较高的时间和空间复杂度,不能有效解决大图数据中的相似性度量问题。BSP和MapReduce两种并行计算模型的提出为大规模数据处理带来了方便,然而如果直接将其应用于分布式SimRank计算中,仍存在一些弊端:前者每次迭代都需要发送非常多的消息,且对于已经收敛的顶点,仍然要接收消息并计算相似度;后者虽然能在一定程度上加快计算速度,但缺乏可扩展性,随着数据节点的增多,时间复杂度和通信量都会急剧增大。为此,本文分别在BSP和MapReduce框架下对分布式SimRank算法与改进策略进行了研究。本文的主要工作及贡献点如下:(1)系统地介绍了SimRank算法的国内外研究现状,简要概括了代表性的相关工作,指出其优缺点,并分析现存研究的不足之处。(2)提出了一种BSP框架下基于G2图的分布式SimRank算法,对该算法的性能进行了分析,提出了G2图的简化策略,通过简化G2图来降低计算过程中的通信量,并进一步在BSP框架下提出了基于简化G2图的Delta-SimRank算法。(3)在MapReduce框架下实现了一些简单的分布式SimRank算法并进行了分析,提出了一种MapReduce框架下两阶段的基于路径索引的分布式SimRank算法:第一阶段构建路径索引信息,提出了BSP框架下的路径索引构建算法,可有效建立路径索引信息,该索引信息包含所有小于等于k的路径及概率;第二阶段利用第一阶段生成的路径索引信息,计算节点间相似度。另外,针对该算法提出了三种优化策略:首先,通过设置过滤阈值尽可能减少生成索引的数量;其次,基于路径树每层节点的数量将路径进行分块,可以减少判断次数,提高效率:第三,将不同块之间的路径分散到不同的节点上处理,以保证负载均衡。(4)通过实验验证了本文所采用的关键技术的可行性和有效性。实验数据表明,本文提出的算法及优化策略在计算速度和可扩展性等方面均优于传统的分布式SimRank算法。
其他文献
在光盘系统中,通道编码方法对于通道性能有很大的影响,是光盘标准制订过程中需要重点考虑的因素之一,也是光盘标准中知识产权关注的要点,因此一直都是国内外研究的焦点。游程
随着语义Web的迅速发展,语义Web中的信息量呈现爆炸式的增长趋势,如何从海量信息中快速、准确的获取有用信息成为一个热门课题。RDF(Resource Description Framework,资源描
智能视频监控是利用计算机视觉和图像处理的方法对摄像机拍下的图像序列进行自动分析,实现对场景中运动目标的定位、识别与跟踪,并在此基础上对目标的行为进行分析与判断,从
3G的蓬勃发展和4G的悄然到来,无论是个人还是企业团体,都越来越深入地走进了现代信息化的生活,基站作为支持信息传播最基本和最重要的硬件,同样遇到了挑战。基站具有数量多、
近年来,随着互联网和搜索技术的进一步发展,仅仅对于网页文本的搜索已经无法满足人们的需要,对于多媒体特别是语音数据的检索已经成为当今研究的热点问题,也是未来几年中互联
随着网络技术不断发展,人们可方便获得大量信息,但高效的获取信息仍是面临的一个巨大挑战。信息检索是一种有效地获得信息的技术,它能帮助人们从海量信息中迅速找到所需信息。
网络和通信技术的发展突飞猛进,多媒体和音/视频编解码技术日趋成熟,大量多媒体通信业务涌现出来。VoIP技术可以实现PC与电话的语音和视频通讯,同时可完成文字、图像的传送,
信息的爆炸性增长对当前的存储技术提出了巨大挑战。新的对象存储技术,能为存储系统提供高性能和高可扩展性,是构建大规模、分布存储系统的基础,正逐渐成为存储领域研究的一
随着经济和科技的飞速发展,企业对信息管理提出了更高的要求,以满足企业之间竞争的需要。作为计算机支持的协同工作CSCW研究的一个重要方向,工作流技术是实现企业业务过程建
当前网络存储系统存在的问题突出表现在网上信息的存储量规模受限;受存储接口的峰值数传率的约束,数据传输缓慢;通道效率高和存取速度慢,响应用户请求的等待时间长;传送数据