【摘 要】
:
Pagerank算法是当今网络搜索引擎巨匠Google的核心技术。本文对Google公司的这一算法在当今网络搜索及其应用领域进行详尽全面的分析和拓展。知识检索是全新的信息检索方式,
论文部分内容阅读
Pagerank算法是当今网络搜索引擎巨匠Google的核心技术。本文对Google公司的这一算法在当今网络搜索及其应用领域进行详尽全面的分析和拓展。知识检索是全新的信息检索方式,而随着互联网的发展,文本内容数量迅猛增加,文本知识检索成为知识检索重点。搜索引擎基于关键字的检索成为网页文本数据检索的主要方法。首先对基本的网页分析算法进行分析综述:如基于广度优先策略和最佳优先策略的网页抓取方法。页面分析算法可以大到从网页以及网页块粒度分析甚至网站粒度分析,还有基于内容的网页分析算法。海量网络信息以使传统通用搜索引擎出现各种局限性。当今主流的网页搜索算法是由引文分析算法发展而来的Pagerank算法,也需要不断改进。本文首先通过自写的网络爬虫程序,来提取网页数据,供各算法实验数据参考分析使用。通过网络链接示意图简单阐述Pagerank算法的思想核心,本文重点研究计算Pagerank值。首先从传统的主题偏离现象和页面相关性角度来提出一种组合的Pagerank算法,然后从网页中悬挂节点问题出发,引入网页超链接矩阵,提出一种基于悬挂节点的线性系统来计算Pagerank值。然后引入基于乘幂法的外推插值方法计算PR值,它是通过计算齐次方程的特征向量求次大根,来计算Pagerank值,然后从线性系统出发,通过递归方式寻找超链接矩阵中的全零行来计算Pagerank值。最后分析扩展特征值法计算Pagerank和标准乘幂法在实际用例中的收敛速度。可以看出扩展特征值法比标准乘幂法优越。随着Pagerank不断成熟,它将在更广的领域发挥更大的作用,越来越方面用户使用快速找到自己需要的信息,剔除更多的冗余信息。
其他文献
目的:系统评价雷诺嗪治疗2型糖尿病(diabetes mellitus type 2, T2DM)的疗效与安全性。方法:全面检索CENTRAL、Medline、Embase、CNKI、VIP、CBM、Wanfang数据库,以及WHO临床试
目的探讨眼眶动静脉畸形(AVM)致眼上静脉(SOV)扩张的影像学及血管造影表现。设计回顾性病例系列。研究对象6例临床表现与硬脑膜海绵窦瘘(CCF)相似的眼眶AVM患者。方法总结分
目的观察对痉挛型脑瘫高危儿进行早期干预治疗的效果。方法共选取67例脑瘫高危儿为研究对象,按开始治疗的年龄不同,分为1~3mon开始治疗的超早期干预组(36例),4~6mon开始治疗
<正>产业是城市经济发展的强力引擎,中小城市如何才能形成以人才工作推动产业经济发展、以产业经济发展带动人才工作的良好格局,引进、培养一支符合经济发展尤其是符合重点产
目的探讨北京同仁医院眼科中心眼眶占位性病变的疾病谱系和发病情况。设计回顾性病例系列。研究对象自1997年1月至2006年12月间北京同仁医院眼科中心病理室存档的1492例眼眶
苏州美术专科学校(以下全部简称苏州美专)是我国民国初年美术教育领域中十分具有影响力的美术专门学校之一。实用美术科的创办整个在苏州美专办学的历史中也是一件值得纪念的
<正>提起青春,便有光明天空下如茵绿草的那一寸寸的欢欣。光阴,记录了我们质朴的青春;客户会心的微笑,是对我们最好的回报;我们挥洒的汗水,播种了充满希望的田野;农合这片肥
本报讯 (记者 郑昭) 23日,省人大常委会办公厅召开《福建省促进闽台农业合作条例》新闻发布会。省人大常委会副主任袁锦贵出席发布会。发布会由省人大常委会副主任、秘书长马潞
目的 研究糖尿病人的个体化治疗。方法 随机选取我院收治的糖尿病病人56例,在治疗的过程中采用个体化治疗,使病人血糖控制理想,减少了并发症的发生,有并发症的病人在控制血糖
旅游"零负团费"是20世纪90年代中后期以来中国旅游界面临的一个突出而又棘手的问题。本文力图就其产生的环境、成因进行深刻全面的剖析,揭示其带来的严重弊端,提出全面制定与