基于分布式计算的PageRank算法改进及实现

来源 :长安大学 | 被引量 : 0次 | 上传用户:lizheng124128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和信息技术的快速迭代,互联网中的信息数据量越来越大、覆盖领域越来越广,现阶段搜索引擎已经成为了我国网民获取网络信息的主要手段。如何快速有效地将所需的信息呈现给用户,其核心技术则是网页排序算法,网页排序算法中最经典的当属Page Rank算法。但是传统Page Rank算法是基于链接分析法所提出的,其本身存在一定不足,比如主题漂移、偏向旧网页、平均分配权值等问题。此外在海量数据下,如何提高Page Rank算法的计算效率也是亟需解决的问题。为了改进传统Page Rank算法所存在的不足,以及提高Page Rank算法的计算效率,本文的主要研究内容包括以下几个方面:(1)分析Page Rank算法主题漂移产生的原因,提出使用网页之间的语义相似度进行改进。使用How Net作为语义词典,改进词语语义相似度算法的不足,利用改进后的算法实现词语消歧、文本语义压缩、文本特征抽取,并提出一种基于语义特征抽取的文本相似度算法。(2)根据网页之间的语义相似度和发布时间,计算网页相对主题相似度和相对时间因子,并计算出链网页的权重。将Page Rank算法的平均分配权值改进为根据出链网页的权重分配权值,提出一种基于语义相似度的Page Rank算法。(3)设计和实现分布式计算实验平台,利用Nutch的插件系统完成网页发布时间抽取功能。针对分布式计算平台实现Page Rank算法时出现的问题,提出基于子图划分的并行Page Rank算法,增加Map Reduce过程中Map阶段的计算任务,减少网络I/O数据传输,提高Page Rank算法的计算效率。最后,通过抓取数据验证所提出的算法,实验数据表明,本文所提出改进的Page Rank算法相较于传统Page Rank算法和基于VSM的Page Rank算法,在网页排序方面有着明显的优势;同时基于子图划分的并行Page Rank算法相较于传统的并行Page Rank算法,在计算效率上也有着明显的提升。
其他文献
基于22Na源慢正电子束流装置的正电子束流强度监测的研究,在许多科学研究与技术应用领域都具有重要意义。例如,可以促进正电子—原子电离或散射的实验研究,有助揭示正电子与
三缺位Dawson结构钨磷酸盐Na12P2W15O56·18H2O(简写为P2W15)的夹心型化合物Na8H8[αββα-{M4(H2O)2(P2W15O56)2}]·nH2O(M=Mn,n=61;M=Co,n=55,分别简写为Mn-P2W15和Co-P2W15
本文研究如下拉格朗日坐标下一维非等熵的可压缩Navier-Stokes-Korteweg方程的柯西问题:(?)解的大时间行为.这里x ∈ R,t>0,未知函数分别是流体的比容v(x,t)>0、速度v(x,t)、
运动目标检测是计算机视觉中一项重要并具有挑战性的问题,同时也在一些视觉应用中扮演着重要的角色。例如:视频监控,无人驾驶和机器人技术。近年来,这项研究在计算机视觉领域
勉略构造带是中国大陆主体拼合的主要结合带,也是秦岭造山带的基本组成部分,勉县-略阳段为其重要地段,以勉县-略阳蛇绿构造混杂岩带为代表。本文在野外地质调查和室内研究相结合的基础上,重点研究勉略构造带略阳地区横现河一带的“大堡岩组”变质沉积-火山岩系、朱家山岩组和乔子沟构造岩片浅变质地层、横现河蛇纹岩等,取得一些新的认识和成果:(1)按照变形强弱,从横现河构造混杂岩带中划分出弱变形的“岩块”与强变形的
图论中的很多重要的结构和性质都可以通过图的相关矩阵的特征值和特征向量来描述.通过对分子图相关的矩阵实施某种运算得到的拓扑指数,它作为化学分子图的分子结构数值化的方
近年来,网络化系统在空间探索、目标跟踪、工业监控和通信等领域的成功应用引起人们的广泛关注。在网络化系统的数据传输中,由于信号的传输依赖于通信网络,系统不可避免地要
随着数字多媒体、视频监控技术的快速发展,监控摄像头几乎无处不在。伴随着的是海量监控视频的爆炸式增长,这些数据的读取与存储带来了非常大的困难。如何有效的利用这些视频
丝网印刷电极具有体积小、成本低廉的特点,使用一次后即可抛弃,避免多次使用产生的样品污染。其工作电极为一类聚合物作粘结剂的碳糊电极,表面粗糙,便于进行化学修饰。本文以
随着我国煤矿巷道掘进长度的增加,快速掘进和高支护效率在安全开采中的重要性也与日递增,能够实现快速掘进支护的双臂锚杆钻车也愈加受到人们的青睐。但目前双臂锚杆钻车液压系统无法满足全断面自动钻孔的要求。因此本文根据双臂锚杆钻车的结构组成与工作原理,设计了双臂锚杆钻车液压系统,并利用AMESim16.0对所设计的液压系统进行了仿真研究分析。首先,根据双臂锚杆钻车的实际工作情况,分析研究了双臂锚杆钻车结构组