基于PageRank排序算法改进的若干研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:game1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球资讯量最大,查询次数最多,知名度最高的搜索引擎是Google,而Google使用最久的排名算法就是PageRank排名算法。PageRank算法被广泛应用于度量网页重要性,它根据网页之间的链接结构来给每个网页打分,依据分数高低给出排名先后,从数学的角度来解释,可以被看作是一个马尔可夫随机游走模型,依据网页下一步的链接信息计算网页的转移概率,用马氏链的平稳分布作为最终的值给网页排序。传统PageRank算法利用了Web的结构信息来判断网页的重要性,而且计算排名过程中将同一页面的所有链出页面看成同等重要,即对每个链出页面平均分配其PageRank值,本文认为这是传统PageRank算法的一个致命缺陷。本文通过分析传统PageRank算法的思想——每个链入页面看做是给自己“投票”的页面、重要页面的投票重要性高、票数多少决定页面重要性高低,得知同一页面的每个链出页面应根据其重要性的不同分得不同权重,从而给出了具有针对性的改进算法。理论上改进算法更切合传统PageRank算法的思想;通过Matlab实验迭代结果,比较传统PageRank算法和改进算法的计算结果,证明改进算法提升重要网页的PageRank值,降低不重要网页的PageRank值,而且能用d<0.85的d值达到传统PageRank算法计算的PageRank值。数值分析中,一个数值问题的条件数是该数量在数值计算中的容易程度的衡量,也就是该问题的适定性。一个低条件数的问题称为“良态”的,而高条件数的问题称为“病态”的。由于互联网上有成亿的网页,实际中计算排名不是解方程组而是用计算机模拟迭代计算其近似解,若一个方程组的病态程度愈严重,也就愈难用一般的计算方法求得比较准确的解。本文在第四章中通过讨论矩阵的条件数,分析其近似解的误差,证明降低阻尼因子d值能使求马氏链极限分布这个数值问题的条件数降低,即马氏链极限分布的近似解更精确。
其他文献
自从20世纪20年代以来,Schr¨odinger方程理论就一直是数学物理这一学科研究的中心课题之一。这一理论涵盖了很多方面,局部光滑性估计,加权估计,极大算子估计,以及Strichartz时空
正合范畴是Abelian范畴的基础,也是Abelian范畴的自然推广.上个世纪五六十年代开始,许多专家学者从两个方向研究正合范畴,特别是加法范畴基础上定义的Quillen意义下的正合范畴.
学位
辽宁塑料包装制品出口产业联盟日前在营口市成立,33家塑料包装出口企业成为成员企业,坐落在营口市的辽宁东盛科技集团有限公司成为联盟理事长单位。近年来,营口市塑料包装产
接触问题广泛存在于工程实际中,接触引起的局部高应力,滑动、微动或滚动接触引起的疲劳和损伤使接触成为影响机械构件使用安全与寿命的重要因素。当接触的物体由于相互施压而发
计算机软件是信息产业的重要组成部分,如何保证其安全、稳定和可靠性,一直是学术界和产业界的热门研究问题和关注焦点。提高软件质量的重要且不可或缺的措施之一,是在投入市
移动自组网是一种移动、多跳和自治性系统,拥有广泛的应用领域和巨大的发展前景。另一方面,它固有的动态性、自组织性等特点使其在安全方面较为脆弱。网络拓扑的变化,使得移动自