基于时间技术的搜索引擎排名算法

来源 :硅谷 | 被引量 : 0次 | 上传用户:Tianxudong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 提出一种基于用户浏览网页时间的搜索引擎新排名算法time-Rank。该算法根据用户浏览时间的信息,更加准确地计算网页的排名得分,提高搜索引擎排名的准确性。算法基于浏览任意两个网页之间的时间差,对用户浏览网页时间进行计算,该算法能够更加准确地模拟用户浏览网页的时间长短。由于浏览时间不同,用户对网页的喜爱程度也就不同,直接体现该页面针对不同用户的重要程度。
  关键词: time-Rank;PageRank;Hits;搜索引擎;排序
  中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2012)1110013-02
  0 引言
  由于互联网的出现和迅速发展,搜索检索的环境发生了重大变化。而基于互联网的搜索引擎的排名算法,直接关系到用户获取相关信息的准确性。网页链接结构是搜索引擎排名算法的基础,其中有两种算法很流行:PageRank[4]算法和Hits[3]
  算法,这两种算法国内外有许多学者和研究机构都进行了研究。但是,在传统的PageRank算法中,PageRank得分表示的是用户浏览某篇网页的概率。但此得分的计算过程有一个前提,那就是用户浏览网页的过程是绝对随机,并且是盲目的。于是,所有的出链都被赋予相同的权值,每篇被链到的页面都得到这个权值,完全没有考虑用户对两个网页的重视程度,这显然是不合理的。用户点击下一网页不是盲目的,用户是根据自己感兴趣的内容点击下以网页,PageRank和HITS算法都没有考虑这些,从而不能体现该网页对用户的重要程度,而timeRank 算法解决了这个问题。
  1 PageRank算法
  PageRank[4]算法是斯坦福大学的Larry Page和Sergey Brin在1996年提出的。
  其基本概念是:每个网站都有外部链接和内部链接,其中数量和质量关系该网站的价值,如果网页v有其它网页进行链接,这样说明网页v对于其它网页比较重要,这相当每个页面对网页v进行了一次投票。链接越多,被其他网页的投票也就越多,每个网页都有重要性得分值,假设网页A它的重要性为:PageRank值PR(A)和A的出链(从A链出的链接)数C(A)的比值,具体公式为PR(A)/C(A)。
  假设有T1…Tn个网页指向A,参数d为阻尼系数,是0到1之间的值,通常假设为0.85。C(A)是一个从网页A的链出的网页数。A的PageRank值由以下公式计算:
  假设用户当前在浏览某一网页Ti,下一步它要么以概率
  以概率1-d在Web中均匀地选择任一页面进行浏览。Web中存在的大量独立网页,用公式(1)计算的PageRank值为0.15,太高,于是Google又给出了公式:
  2 time-Rank算法
  2.1 算法
  网页的重要性对于用户来说是不同的,即使它们的链接结构是一样的,因此怎样把网页内容和链接结构关系到一起?如果用户对网页感兴趣,那么用户浏览的时间比那些用户不感兴趣的网页浏览时间要长,这意味着网页的内容更可能是用户想搜索到的,如果我们把浏览时间加入到排序算法中,我们更能准确的计算网页排序的分数,因此,怎样估算浏览网页的时间是当前算法的关键。
  为了估计出用户浏览网页的时间,我们做出一个合理的假设,假设用户点击的网页是来自搜索解析的网页集合中的网页,意思是说,用户在搜索引擎中输入关键字,得到相关的网页结合,假设用户每次只点击一个网页,一直到浏览完该网页才去点击另一网页,换句话说,每次用户点击不超过两个网页,直到浏览完一个网页再去浏览另一个,如果用户在这种方式下浏览网页,它存在一个浏览序列。
  假设P为序列,向量P={p1,p2….,pn},n代表用户输入的关键字,所解析返回的网页数量,基于这个序列,我们能计算出浏览网页的时间TJ代表用户点击网页Pj的时间,Tj+1代表用户点击网页Pj+1的时间,因此用户浏览网页Pj的时间是Tj+1-Tj,用户浏览浏览网页的时间为:TM={t1,t2….,tn}。
  我们添加时间因素进入算法,是因为如果用户感兴趣该网页,有可能是和用户搜索的主题相关,这样用户就会浏览更长的时间,否则用户很快就离开该网页,浏览很短的时间。因此计算过程如下:
  基于超链接的排名,每个网页有n个时间分数,n代表主题的数量。首先,运用web图算法并计算每个离线下网页的等级,这个计算过程是基于[1]。
  其次,计算关键字和超链接的相似度,用户提交关键字给搜索引擎后,搜索引擎必须确保关键字和超链接想匹配,根据贝叶斯理论[2],解析q和超链接j之间的关系有可能是:
  H(j)代表j的每个页面的超链接,PR(H(j))代表在相关网页集中所占的比例,PR(q|H(j))代表在超链接j中包含q所占的比例,计算这个的目的是怎样把时间加入到超链接中。
  最后,把时间加入进去 ,每个网页有初始的浏览时间向量TS={t(1),t(2),….t(n)},t(j)代表用户关于连接j的页面的总的浏览时间,为了避免0的出现,初始t(j)=1,这样搜索引擎运行几次后,我们能计算出浏览每个网页的时间向量,这个向量来源于用户浏览时间序列TM,因此每个页面的排名是:
  2.2 算法描述
  为了把时间加入到排名算法中,我们首先建立“基于时间浏览模式”,在这种模式下我们能测量每个网页的浏览时间。在运行了原始算法和改进的网页算法后知道用户对不同网页的重视程度,这个算法利用时间因素增加了网页排名的准确性。
  在这个算法中,意味着有较长的网页浏览时间,将获得更高的分数,无论两个网页的链接结构是相同的还是不同的。增加了时间到网页排名分数的计算中后,我们不仅能得到网页更准确的排名分数,而且避免了垃圾网页获得较高的分数,这是本论文的贡献。
  2.3 處理
  为了从服务器日志中得到用户浏览网页的时间,我们首先必须处理服务器日志,查询词,IP地址,以及浏览时间都记录在服务器上,由于在日志中存在噪声,首先我们应该先区分噪声,并且按照互联网协议地址安排事件。如果源IP地址在一小时是一样的,我们可以用web代理来处理它,我们可以把web代理看作是一个用户的点击序列,假如两个相邻的点击事件之间的时间间隔大于一个小时,我们就抛弃后一个点击事件,根据这个规则,我们能得到网页的访问的时间,并且可以计算时间通过公式(4)。
  3 结束语
  本文提出了基于时间技术的搜索排名算法timeRank,并且给出了完整和详细的数学表示,经过完整的算法表达与应用,充分根据网页对用户的重要性信息,能够获得更加准确的排序结果,克服PageRank等一些算法和查询关键字无关的缺陷,从而让排序算法更加准确地模拟了用户浏览页面的习惯。在此之前,所有搜索引擎排名算法都有很多不足之处,无法区分网页中的超链接是不是和网页有相关性,还是不相关,这样很容易出现主题漂移的问题,即和主题不相关的网页排名很靠前。但是,一个好的搜索引擎应该能够根据用户的兴趣,关注其兴趣或期望来获取相关的信息,本文已经开始利用用户的兴趣爱好,这些问题需要作出进一步的努力和改进。
  参考文献:
  [1]L. Page,S.Brin, R. Motwani and T. Winograd, The pagerank citation ranking: Bringing order to the web,Technical report, Stanford Digital Library Technologies Project.1998.
  [2]Dimitri,P. Betsekas and John N. Tsitsiklis, Introduction to Probability. Athena Scientific, 2002.
  [3]Jon Kleinberg, “Authoritative Sources in a Hyperlinked Environment”,In Proceedings of the ACM-SIAM Symposium on Discrete Algorithms, 1998.
  [4]BRIN S,PAGE L. The Anatomy of a LargeSca1e Hypertextual Web Search Engine[A].Pro. of the 7th international World Wide Web Conference[c].1998,Vo1.7.
其他文献
本文通过对荣华二采区10
期刊
摘 要: 随着生活水平的提高,人们对生活热水供应质量的要求越来越高。以内蒙古包头地区为例,大部分居民安装生活热水器的主要形式为太阳能热水器,电热水器,燃气热水器,热泵热水器这么几种类型,通过对这几种热水器的特点,一次性投入以及运行费用的比较,选出针对内蒙古包头地区最为适合的热水供应系统方案,并提出一个节能且实用方案仅供参考。  关键词: 热水器;太阳能;热水供应;运行费用  内蒙古包头地处内蒙古
[摘要]当今世界充满了丰富的色彩,我们总是被各种颜色包围着,正因为有不同色彩的存在,人们才能感受到生活的丰富多彩。伴随着经济的快速发展,生活水平的不断提高,越来越多的人学会了享受生活,人们对周围生活环境的视觉要求也不断提高。如何为人们营造优美的环境,对园林景观的色彩进行合理的设计成为景观设计师面临的迫切问题。本文从园林景观中色彩的应用着手,通过探讨中西方园林景观中色彩的搭配,阐述了色彩的合理运用在
期刊
摘要: 随着城市化进程加速,全球环境恶化,出现了很多严重的生态问题。城市建设用地的扩张,越来越多的垃圾填埋场、掩盖、建设城市河流环境控制措施,以此使得人工湿地退化严重,人类的生存受到威胁,生态安全与可持续发展成为社会发展的主要问题。湿地是一种重要的保证我国内陆可持续发展的重要形式,城市湿地园林的建设可以对生态环境起到保护、重建和恢复的作用,有利于维护景观质量、改善城市小气候、补充地下水,创建丰富的
期刊
摘要:此文针对市政管网施工简介、市政管网施工中的环境影响以及控制措施进行简要分析,仅供参考。  关键词:市政管网;管网施工;环境影响;控制措施  中图分类号:TU99文献标识码: A   引言  随着我国城市化进程的加快,城市基础设施建设速度也在加快,大量新的居民小区、工业小区的建设要求相应的基础设施建设也要同期进行,市政管网建设是基础设施建设中重要的一部分,施工必然对环境产生一定程度的影响,主要
期刊
摘要:市政路桥工程既是一个城市物质生产和人民生活的基本载体,也是保障正常运转和经济发展的物质基础与基本条件,更是衡量一个城市现代化水平和文明程度的标志。因此,市政工程中路桥施工技术在整个施工过程中具有非常重要的作用。  关键词:市政工程路桥施工技术  中图分类号:TU99文献标识码: A   引言:  市政路桥工程中城市立交桥梁工程和道路工程的施工质量水平高低,不仅会影响到一个城市的市容市貌和政府
期刊
摘要:绿色施工是指工程建设中,在保证质量、安全等基本要求的前提下,通过科学管理和技术进步,最大限度地节约资源并减少对环境负面影响的施工活动,实现节能、节地、节水、节材和环境保护。结合目前市政工程项目施工现状,浅谈市政工程绿色施工中存在的一些问题和所采取的措施。     关键词:市政工程绿色施工  中图分类号: TU99 文献标识码: A    一、绿色施工的概念  近年来,市政工程绿色施工评价标准
期刊
摘要:天津市卫津河作为天津市中心城区重要的二级河道,主要起到排沥、蓄水和生态景观的功能。文章对卫津河进行长期的采样监测,对影响卫津河污染的主要指标以及污染现状进行了分析评价,为今后卫津河的治理提供科学的依据。   关键词:卫津河;水质监测;污染指标;分析评价  中图分类号:TU99文献标识码: A   Abstract: The Wei Jin River as the second major
期刊