信息检索中虚拟域重排技术的研究与实现

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:dengscc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的发展,人们对于信息的需求也与日俱增。用户希望获得信息的渠道和方式更加便捷和高效,尤其是在搜索信息时,期望所需求的信息尽量排在前边,这便是SEO (Search Engine Optimization,搜索引擎优化)问题。检索结果重排序技术的研究是SEO课题一个重要的分支,且该技术的研究也趋于多样化。近几年在查询扩展中提出了虚拟域概念,取得了很好的效果,构成虚拟域的方法有许多种,但由于计算虚拟域的工作量巨大,一般只能使用一种方法进行查询扩展,不能同时综合使用几种方法,有一定的局限性。本文提出一种新的重排序模型,将虚拟域概念应用于重排方法,重排只针对初次检索结果若干文档进行,综合运用多种虚拟域提高了重排性能。基于虚拟域的重排模型,是用多种查询词运算构成多个虚拟域,通过线性插入法综合多个虚拟域计算待排序文档(初次检索结果前k个文档)与查询的新的相关度,依据相关度给出新的排序。根据查询词运算符or、and、gram和phrasal设计和实现了查询词映射和构建虚拟域的算法。相关度的计算是基于传统的BM25,在其基础上实现了虚拟域重排模型。研究分析了or、or-and、or-gram、 or-and-gram、or-and-gram-phrasal等5种组合的虚拟域计算方法对重排序的影响,结合已有的经验,通过大量的实验优化了模型中各个参数。本文创新之处在于结合多种运算来计算虚拟域,突破了原来单一运算符的局限,这种方法得到的文档与查询的相关度更为准确。在多个TREC集上进行了实验,实验结果表明本文所提出的模型能够有效地提高重排性能。
其他文献
现实问题中的数据通常是高维的,其中存在大量的不相关和冗余的特征,这给传统的学习算法带来了巨大的挑战。特征选择就是在这种情况下应运而生,是一种有效的降维方法。特征选
图像检索是当前互联网时代的基本需求。基于内容的图像检索(Content Based Image Retrieval,CBIR)是图像检索领域的热点研究方向。CBIR利用图像低层视觉特征进行图像的对比和
手势识别是人机交互领域的一个热点问题,而手势检测是手势识别的关键步骤之一。传统的手势检测不仅采用肤色检测而且还需要人手定位,计算复杂度高。深度传感器的出现为手势检
近年来,云计算这个概念越来越多地被人们讨论提及,各个国家也越来越重视发展云计算产业,包括微软,谷歌,亚马逊在内的世界著名的科技巨头公司,先后推出了云计算产品,同时很多
近年来机器嗅觉领域发展迅速,在工业生产、环境保护、安全检查、医疗诊断等领域中发挥着越来越重要的作用。气体识别系统作为机器嗅觉的一个典型应用,通常由交叉敏感的化学传
学位
图像是用来记录或者显示一些有用的信息的。然而,成像和拍摄过程中的缺陷使得最终的图像总是原来的场景的退化版本。消除这些缺陷,即图像恢复,对于后续的许多图像处理任务至
随着嵌入式技术的急速发展,嵌入式终端产品深入人心,其产生的安全问题也显得尤为重要。商人逐利,使得这些终端产品往往缺乏安全设计,使得其极易遭受攻击。为了有效地解决由嵌入式
当今互联网技术高速发展,尤其在教育工作领域中的应用更为广泛,这使得教育工作者能够更加快捷的进行教学与办公,极大地提高了日常工作效率。本文总结了目前现有教育网站和各
智能服务机器人已经走进了普通民众的生活,并将在未来扮演越来越重要的角色。在工作过程中,机器人将会面临多种多样的物体定位和识别挑战,开发实用的视觉算法和技术是服务机