论文部分内容阅读
在浮躁的互联网时代,五花八门的网站为争夺网上排名,经常会采用恶意点击和输入关键字垃圾的手段来抢夺网民的眼球,搞得网民们的网络体验日益混乱。有没有一种方法可以拨乱反正呢?
Google创始人之一拉里·佩奇(LarryPage)发明了一种算法PageRank,是由搜索引擎根据网页之间相互的超链接计算的网页排名,这也和搜索引擎优化有关,PageRank系统被Google用来体现网页的相关性和重要性,以便科学排名,遏止关键字垃圾。
巧妙的PageRank算法
PageRank通过对由超过5亿个变量和20亿个词汇组成的方程进行计算,能科学公正地标识网页的等级或重要性。级别从1到10级,10级为满分。PR值越高说明该网页越重要。例如;一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站极其重要。
PageRank级别不是一般的算术级数,而是按照一种几何级数来划分的。这是一种奇特的数字景观,PageRank3不是比PageRank2好一级,而可能会好到数倍。因此,一个PageRank6的网页和PageRank9的网页之间的差距会比你可能想象的要大得多。
PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值,PageRank的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。Google有一套奇妙的自动化方法来计算这些投票。
用PageRank合理排名
PageRank这个概念引自学术中一篇论文被媒体转载的频度,转载的次数越多,一般判断这篇论文的权威性就越高,价值性也就越高。
但Google的排名算法不完全基于外部链接,或者说,PageRank不是单纯以链接多少来论英雄、排座次的。PageRank对来自不同网页的链接区别对待,不是简单地算为一票。鉴于本身网页排名高的链接更受青睐,因此Google会给这些链接较大的权重。
Google不只是看一个网站的投票数量,或者这个网站的外部链接数量,它还会对那些投票的网站进行分析。如果这些网站的PR值比较高,则其投票的网站可从中受益。打一个形象的比方,微软总裁对雅虎的高度评价与另外一个不入流的网站CEO对雅虎的好感是不可同等而语的,因为一个是一言九鼎,一个是人微言轻,雅虎从他们对其的赞誉中获取的身价资本是有很大差别的。
因此,Google的技术专家提醒人们,在建设网站的外部链接时,应尽可能瞄准那些PR值高且外部链接数又少的网站。这样的外部链接站点越多,你的PR值就会越高,从而使得你的Google排名得到显著提升。
遏制字垃圾
PageRank的另一神奇妙用是对关键字垃圾起到巨大的遏制作用。眼下,一些“下三烂”网站为了提高点击率,用一些与站点内容无关的关键字垃圾壮声威,比如用明星的名字,用公共突发事件称谓等,只要搜索者输入这些关键字,这些不入流的网站便呼啸而来,目的仅仅是使网站从搜索引擎获得更高的流量。这些网页的目的或是为了骗取广告点击,或是为了传播病毒,让你特别心烦。
还有一些无赖式的博客评论也从中搅局,在网上招摇过市,骗取网民的注意力,亦被网络技术人员视为垃圾。
Google的PageRank使用一种基于信任和名誉的算法帮助遏止关键字垃圾,它藐视这些关键字垃圾的存在,以网页相互链接评级别,论高低。
PageRank改变搜索排名
Google排名之所以大受追捧,是由于它并非只使用关键字或代理搜索技术,而是将自身建立在高级的网页级别技术基础之上。别的搜索引擎提供给搜索者的是多种渠道得来的一个粗略的搜索结果,而Google提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是为什么网站管理员会千方百计去提高自己网站在Google的排名。
网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。
PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。PR值暂时没有,这不是什么不好的事情,耐心等待就能受到的Google青睐。
PageRank是1998年在斯坦福大学问世的,2001年9月被授予美国专利。如今它在Googl~所有算法中起着至关重要的作用。在学术界,这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程(Inforrnation Retrieval)的教程。
Google创始人之一拉里·佩奇(LarryPage)发明了一种算法PageRank,是由搜索引擎根据网页之间相互的超链接计算的网页排名,这也和搜索引擎优化有关,PageRank系统被Google用来体现网页的相关性和重要性,以便科学排名,遏止关键字垃圾。
巧妙的PageRank算法
PageRank通过对由超过5亿个变量和20亿个词汇组成的方程进行计算,能科学公正地标识网页的等级或重要性。级别从1到10级,10级为满分。PR值越高说明该网页越重要。例如;一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站极其重要。
PageRank级别不是一般的算术级数,而是按照一种几何级数来划分的。这是一种奇特的数字景观,PageRank3不是比PageRank2好一级,而可能会好到数倍。因此,一个PageRank6的网页和PageRank9的网页之间的差距会比你可能想象的要大得多。
PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值,PageRank的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。Google有一套奇妙的自动化方法来计算这些投票。
用PageRank合理排名
PageRank这个概念引自学术中一篇论文被媒体转载的频度,转载的次数越多,一般判断这篇论文的权威性就越高,价值性也就越高。
但Google的排名算法不完全基于外部链接,或者说,PageRank不是单纯以链接多少来论英雄、排座次的。PageRank对来自不同网页的链接区别对待,不是简单地算为一票。鉴于本身网页排名高的链接更受青睐,因此Google会给这些链接较大的权重。
Google不只是看一个网站的投票数量,或者这个网站的外部链接数量,它还会对那些投票的网站进行分析。如果这些网站的PR值比较高,则其投票的网站可从中受益。打一个形象的比方,微软总裁对雅虎的高度评价与另外一个不入流的网站CEO对雅虎的好感是不可同等而语的,因为一个是一言九鼎,一个是人微言轻,雅虎从他们对其的赞誉中获取的身价资本是有很大差别的。
因此,Google的技术专家提醒人们,在建设网站的外部链接时,应尽可能瞄准那些PR值高且外部链接数又少的网站。这样的外部链接站点越多,你的PR值就会越高,从而使得你的Google排名得到显著提升。
遏制字垃圾
PageRank的另一神奇妙用是对关键字垃圾起到巨大的遏制作用。眼下,一些“下三烂”网站为了提高点击率,用一些与站点内容无关的关键字垃圾壮声威,比如用明星的名字,用公共突发事件称谓等,只要搜索者输入这些关键字,这些不入流的网站便呼啸而来,目的仅仅是使网站从搜索引擎获得更高的流量。这些网页的目的或是为了骗取广告点击,或是为了传播病毒,让你特别心烦。
还有一些无赖式的博客评论也从中搅局,在网上招摇过市,骗取网民的注意力,亦被网络技术人员视为垃圾。
Google的PageRank使用一种基于信任和名誉的算法帮助遏止关键字垃圾,它藐视这些关键字垃圾的存在,以网页相互链接评级别,论高低。
PageRank改变搜索排名
Google排名之所以大受追捧,是由于它并非只使用关键字或代理搜索技术,而是将自身建立在高级的网页级别技术基础之上。别的搜索引擎提供给搜索者的是多种渠道得来的一个粗略的搜索结果,而Google提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是为什么网站管理员会千方百计去提高自己网站在Google的排名。
网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。
PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。PR值暂时没有,这不是什么不好的事情,耐心等待就能受到的Google青睐。
PageRank是1998年在斯坦福大学问世的,2001年9月被授予美国专利。如今它在Googl~所有算法中起着至关重要的作用。在学术界,这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程(Inforrnation Retrieval)的教程。