论文部分内容阅读
随着Web技术的发展,人们对于信息的需求也与日俱增。用户希望获得信息的渠道和方式更加便捷和高效,尤其是在搜索信息时,期望所需求的信息尽量排在前边,这便是SEO (Search Engine Optimization,搜索引擎优化)问题。检索结果重排序技术的研究是SEO课题一个重要的分支,且该技术的研究也趋于多样化。近几年在查询扩展中提出了虚拟域概念,取得了很好的效果,构成虚拟域的方法有许多种,但由于计算虚拟域的工作量巨大,一般只能使用一种方法进行查询扩展,不能同时综合使用几种方法,有一定的局限性。本文提出一种新的重排序模型,将虚拟域概念应用于重排方法,重排只针对初次检索结果若干文档进行,综合运用多种虚拟域提高了重排性能。基于虚拟域的重排模型,是用多种查询词运算构成多个虚拟域,通过线性插入法综合多个虚拟域计算待排序文档(初次检索结果前k个文档)与查询的新的相关度,依据相关度给出新的排序。根据查询词运算符or、and、gram和phrasal设计和实现了查询词映射和构建虚拟域的算法。相关度的计算是基于传统的BM25,在其基础上实现了虚拟域重排模型。研究分析了or、or-and、or-gram、 or-and-gram、or-and-gram-phrasal等5种组合的虚拟域计算方法对重排序的影响,结合已有的经验,通过大量的实验优化了模型中各个参数。本文创新之处在于结合多种运算来计算虚拟域,突破了原来单一运算符的局限,这种方法得到的文档与查询的相关度更为准确。在多个TREC集上进行了实验,实验结果表明本文所提出的模型能够有效地提高重排性能。