论文部分内容阅读
摘 要: 检索的目标是全面而准确的信息,用户关心的是在海量数据中快速地查到合适的信息。为了使用户更快地得到满意的结果,本文提出了在传统相关度算法的基础上增加页面时间因素思想的页面时间相关度算法,使得检索结果在查准率方面有了较大的提高。
关键词: 相关性;页面时间相关度算法
1 引言
当前,我们在检索的时候往往不能更快地找到合适的数据。根据iProspect 的调查报告, 90%的用户只点击搜索结果页的前3页里的结果,多数网民表达了对搜索引擎结果中冗余信息多的不满。这说明:用户对搜索引擎的要求越来越高,他们希望花在寻找结果上的时间越来越少。因此,排序查找到的结果比搜索本身更为重要,研究搜索引擎的排序算法的改进,逐渐成为热点问题,越来越多的人意识到排序质量不令人满意的原因:不是网页提供给的信息太少,而是可用的信息太少,或所用信息不恰当[1]。
如何解决非应答或无应答网页的问题,就是排序算法所应关注的重要问题。排序所查找到结果的相关度算法就是希望能够帮助用户更快捷准确的找到更符合目标的网页,以达到更好的查准率。本文提出了通过在传统网页相关度算法的基础上增加页面时间因素的思想,解决了无应答和非应答页面的问题,经过实验提高了查准率。
2 传统排序算法的局限性
2.1 传统网页的相关性排序原则
传统的信息检索大多是基于全文检索的,其相关性都是基于词频统计的。即用户输入检索词句时,搜索引擎就会去找那些检索词所在的网页[2]。这样的排序算法的有很大的局限性表现为:首先,检索词的匹配不一定就是查找到准确文档的保证。其次,每个用户人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量可能相差很远[2]。
2.2 基于提问式的非应答或无应答式网页
所谓基于提问式的非应答或无应答网页,就是针对某些问题用户在某些论坛或者网站上输入问题,但是没有合适的答案或没有回答的情况。而我们在检索时,也常常发生这样的情状况:因为输入的查询词句和网页中提问的问题的匹配,这些提问应答式网页的排序就比较靠前,但是,很多这样的网页都是非应答或无应答网页。
2.3 用户反馈的问题
在资源选择模块中加入日志信息、反馈机制, 充分利用用户反馈信息能够提高信息检索性[3]。本文提出了一种基于页面时间的相关度排序算法,解决了基于提问式的非应答或无应答网页的问题,弥补了用户反馈的问题。通过分析和实验可以看出此种方法不仅具有实用性和可行性,也使得排序结果具有更加优良的排序质量。同时,这种算法是在按照传统排序算法上增加页面时间的思想而提出的,可以方便地被移植。
3 页面时间算法
3.1 算法的思想
页面时间算法的主要思想就是:有用的网页会比无用的网页的生存期长。
先对待计算数据给出如下定义:
定义1 对于一个用户检索时,确定搜索引擎抓取到的所有网页集合S,对于S中的任何一个网页用Ri表示。
定义2 用户需要检索的目标网页集合G,G中网页的个数用小写字母N表示,如果没有用户特别指定,默认N值为10,这这是因为一般一个检索页面检索到的网页为10个,而根据调查显示,越来越多的用户只点击搜索结果页的第1页里的结果。G是S的子集。
定义3 用户打开网页的个数,用小写字母n表示,nN。
定义4 当用户打开一个页面时,记录两个时间:打开页面的时间,用tstart表示;关闭页面的时间,用tend表示。
定义5 网页从打开到关闭所花费的时间称为页面的生存期,用带下标的小写字母t表示,ti表示第i个页面的生存期。
算法的主要实现步骤为:
步骤1 用户输入关键词句检索时,确定检索到的所有网页集合S和用户想要检索的网页集合G。即确定G的个数N,如果用户没有特殊说明,N的值默认为10。
步骤2 对于打开的n个网页,nN for(0 对G中的每一个网页Ri通过每个页面的打开时间tstart和关闭时间tend按照公式(1)计算页面的生存期。
步骤3 对于每一个网页Ri,i[1,n],查看页面的生存期ti,对n个检索到的结果按照ti由大到小进行排序。在同样的查询重要度下,ti值大的重要度要比ti值小的重要度大。这样,有用的网页就会更快的被用户查询到,无应答或者非应答网页的问题也就解决了。
3.2 对算法的理论分析
一是可行性和可移植性。我们打开一个网页的时候经常会有登录时间这样的信息“您上次登陆的时间是:”,就是说我们可以获得时间打开和关闭的信息,也就是说这个想法是可行的。而且这也就是说我们可以从网页上直接获取时间信息加以利用,而不用为网页增加更多的元素,这样就更有利于广泛地使用和被移植。
二是用户透明性。知道网页打开和关闭的时间再算出网页利用时间不必用户完成,这很人性化,它对用户是透明的,不需要用户主动反馈信息而实际增加了用户反馈功能,更好地实现了查准率的目标。
三是实用性。这种方法理论上可以去除无效的页面,比如说没有答复或没有合适答复的网页,我们在正常情况下发现这种情况就会立即关闭该网页,而对有价值的网页才会仔细研究内容,对用户有用的网页也会更快得被用户查询到。
4 结束语
相关度算法是查准率的保证,传统相关度算法无法解决无效的提问应答式页面的问题,用户反馈也不能解决这一问题。本文提出的页面时间算法对于查询时常出现的无应答和非应答页面有很好的效果,通过实验和分析都表明此种算法具有很好的实用性,有效地提高了网页的查准率,使得用户更快地得到
满意的结果。
参考文献:
[1]田甜、倪林,基于PageRank 算法的权威值不均衡分配问题[J].计算机工程, 2007, 33(18):53-55.
[2]过仕明,PageRank 技术分析及网页重要性的综合评价模型[J]. 图书馆论坛,2006, 26(1):79-81.
[3]许静芳、李 星,可扩展的分布式信息检索的设计与实现 [J]. 清华大学学报(自然科学版),2005 ,45 (S1):1844
关键词: 相关性;页面时间相关度算法
1 引言
当前,我们在检索的时候往往不能更快地找到合适的数据。根据iProspect 的调查报告, 90%的用户只点击搜索结果页的前3页里的结果,多数网民表达了对搜索引擎结果中冗余信息多的不满。这说明:用户对搜索引擎的要求越来越高,他们希望花在寻找结果上的时间越来越少。因此,排序查找到的结果比搜索本身更为重要,研究搜索引擎的排序算法的改进,逐渐成为热点问题,越来越多的人意识到排序质量不令人满意的原因:不是网页提供给的信息太少,而是可用的信息太少,或所用信息不恰当[1]。
如何解决非应答或无应答网页的问题,就是排序算法所应关注的重要问题。排序所查找到结果的相关度算法就是希望能够帮助用户更快捷准确的找到更符合目标的网页,以达到更好的查准率。本文提出了通过在传统网页相关度算法的基础上增加页面时间因素的思想,解决了无应答和非应答页面的问题,经过实验提高了查准率。
2 传统排序算法的局限性
2.1 传统网页的相关性排序原则
传统的信息检索大多是基于全文检索的,其相关性都是基于词频统计的。即用户输入检索词句时,搜索引擎就会去找那些检索词所在的网页[2]。这样的排序算法的有很大的局限性表现为:首先,检索词的匹配不一定就是查找到准确文档的保证。其次,每个用户人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量可能相差很远[2]。
2.2 基于提问式的非应答或无应答式网页
所谓基于提问式的非应答或无应答网页,就是针对某些问题用户在某些论坛或者网站上输入问题,但是没有合适的答案或没有回答的情况。而我们在检索时,也常常发生这样的情状况:因为输入的查询词句和网页中提问的问题的匹配,这些提问应答式网页的排序就比较靠前,但是,很多这样的网页都是非应答或无应答网页。
2.3 用户反馈的问题
在资源选择模块中加入日志信息、反馈机制, 充分利用用户反馈信息能够提高信息检索性[3]。本文提出了一种基于页面时间的相关度排序算法,解决了基于提问式的非应答或无应答网页的问题,弥补了用户反馈的问题。通过分析和实验可以看出此种方法不仅具有实用性和可行性,也使得排序结果具有更加优良的排序质量。同时,这种算法是在按照传统排序算法上增加页面时间的思想而提出的,可以方便地被移植。
3 页面时间算法
3.1 算法的思想
页面时间算法的主要思想就是:有用的网页会比无用的网页的生存期长。
先对待计算数据给出如下定义:
定义1 对于一个用户检索时,确定搜索引擎抓取到的所有网页集合S,对于S中的任何一个网页用Ri表示。
定义2 用户需要检索的目标网页集合G,G中网页的个数用小写字母N表示,如果没有用户特别指定,默认N值为10,这这是因为一般一个检索页面检索到的网页为10个,而根据调查显示,越来越多的用户只点击搜索结果页的第1页里的结果。G是S的子集。
定义3 用户打开网页的个数,用小写字母n表示,nN。
定义4 当用户打开一个页面时,记录两个时间:打开页面的时间,用tstart表示;关闭页面的时间,用tend表示。
定义5 网页从打开到关闭所花费的时间称为页面的生存期,用带下标的小写字母t表示,ti表示第i个页面的生存期。
算法的主要实现步骤为:
步骤1 用户输入关键词句检索时,确定检索到的所有网页集合S和用户想要检索的网页集合G。即确定G的个数N,如果用户没有特殊说明,N的值默认为10。
步骤2 对于打开的n个网页,nN for(0 对G中的每一个网页Ri通过每个页面的打开时间tstart和关闭时间tend按照公式(1)计算页面的生存期。
步骤3 对于每一个网页Ri,i[1,n],查看页面的生存期ti,对n个检索到的结果按照ti由大到小进行排序。在同样的查询重要度下,ti值大的重要度要比ti值小的重要度大。这样,有用的网页就会更快的被用户查询到,无应答或者非应答网页的问题也就解决了。
3.2 对算法的理论分析
一是可行性和可移植性。我们打开一个网页的时候经常会有登录时间这样的信息“您上次登陆的时间是:”,就是说我们可以获得时间打开和关闭的信息,也就是说这个想法是可行的。而且这也就是说我们可以从网页上直接获取时间信息加以利用,而不用为网页增加更多的元素,这样就更有利于广泛地使用和被移植。
二是用户透明性。知道网页打开和关闭的时间再算出网页利用时间不必用户完成,这很人性化,它对用户是透明的,不需要用户主动反馈信息而实际增加了用户反馈功能,更好地实现了查准率的目标。
三是实用性。这种方法理论上可以去除无效的页面,比如说没有答复或没有合适答复的网页,我们在正常情况下发现这种情况就会立即关闭该网页,而对有价值的网页才会仔细研究内容,对用户有用的网页也会更快得被用户查询到。
4 结束语
相关度算法是查准率的保证,传统相关度算法无法解决无效的提问应答式页面的问题,用户反馈也不能解决这一问题。本文提出的页面时间算法对于查询时常出现的无应答和非应答页面有很好的效果,通过实验和分析都表明此种算法具有很好的实用性,有效地提高了网页的查准率,使得用户更快地得到
满意的结果。
参考文献:
[1]田甜、倪林,基于PageRank 算法的权威值不均衡分配问题[J].计算机工程, 2007, 33(18):53-55.
[2]过仕明,PageRank 技术分析及网页重要性的综合评价模型[J]. 图书馆论坛,2006, 26(1):79-81.
[3]许静芳、李 星,可扩展的分布式信息检索的设计与实现 [J]. 清华大学学报(自然科学版),2005 ,45 (S1):1844