基于历史点击数据的分布式信息检索集合选择方法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lxting86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集合选择是分布式信息检索过程中的重要一环,其在尽量不影响检索效果的情况下,选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根据主要通过集合的静态统计信息来来评价集合的相关度,忽略了集合检索返回文档的有效性及查询日志的价值。查询日志包含大量用户查询信息及各查询对应的点击情况,被广泛用于提高信息检索的效率和质量。   基于此,本文针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象,提出一种基于历史点击数据的集合选择方法(PCTD-CS)。该方法利用点击数据估计各集合与历史查询的相关度。采用基于关键词和基于检索结果相结合的方法估计查询间的相似度。利用历史查询中的相似查询估计新查询与各集合的相关度,进而选择相关度最高的M个集合进行检索,并给出了要获取前k个文档的情况下各集合应当返回的文档数。采用Rm、P@n和MAP对集合选择方法的性能进行了验证。实验结果表明:PCTD-CS较ReDDE提高了检索结果的召回率和准确率,能更准确的定位到包含相关文档多的集合。总的来说,本文的主要贡献如下:   1)针对用户查看检索结果时只关注排名靠前的结果,综合考虑检索的有效性,提出了一种基于点击数据的历史查询与集合相关度的计算方法。   2)由于真实检索环境下,相同查询或相似查询经常出现,提出了一种根据历史查询中的相似查询估计新查询与集合相关度的计算方法。   3)针对集合返回大量文档干扰最终检索结果准确率的现象,提出系统要获取k个文档的情况下,各集合根据其相关度应返回文档数的计算方法。  
其他文献
视频语义事件的探测是视频语义分析的一个重要内容和难点,以前在这方面的探测大都使用模式识别提取颜色、材料等低层特征进行简单的低层语义识别,然而对于利用推理技术进行事件
在竞争越来越激烈的知识经济时代,知识的有效管理和高效利用成为企业取得竞争优势的关键因素之一。如何管理和检索企业中存在的海量的非结构化知识,成为企业知识管理中亟待解决
当今在存储系统中,主流的存储器仍然是传统的磁盘和近几年广泛使用的基于FLASH的固态硬盘,磁盘因受限于内部的机械结构,读写性能较差,而固态硬盘虽然在性能上有了很大的改善,但写
属性基加密是近几年来密码学研究的热点问题之一,它是在模糊身份基加密的基础上发展起来的一种公钥加密机制,能够同时实现信息的私密性和访问控制的灵活性,它最大的优点是:特
随着国家对大力发展职业教育政策的出台,我国的职业教育蓬勃发展,中等职业教育也形成了良好的发展势头,学校规模不断扩大,学生人数逐渐增多,这给学校的教务管理工作带来了新
当前各个领域的多媒体和CG技术的快速发展,图像的渲染被广泛应用在电影里的动画设计制作、游戏画面静态及动态的特效上,而且随着越来越多有关图像形成方面的技术需求也越来越
并行磁共振成像(parallel magnetic resonance imaging,pMRI)技术是近十几年来MRI领域的一次革命,该技术利用放置在被检体周围的多个接收线圈来同步探测磁共振信号,并通过减少梯
目前国内外城市的公共交通均以地面交通为主,随着经济的快速发展,交通拥堵现象和日益增长的交通事故引起了国内外社会的广泛关注,为此越来越多的学者开始研究智能交通。智能交通
本文是以全国计算机信息高新技术考试(OSTA)为背景,开发相应的在线考试系统项目,结合办公自动化应用技能水平测试需要,利用教学单位现有教学资源,使用计算机技术和网络自主设
Web2.0的兴起吸引了越来越多的因特网用户,电子商务和论坛在这一平台上得到了长足的发展。在线购物网站和产品论坛中积累起海量的产品评论。产品的潜在用户希望从中获取有价