论文部分内容阅读
近年来,随着Internet的蓬勃发展,Web上的数据信息资源一直呈爆炸式增长,用户从海量的数据中获取信息的难度也在不断地增加。信息检索技术的出现和快速发展,使得搜索引擎成为了用户查找信息资源的主要方式。在信息检索的过程中,由于用户提交的查询词可能过短或过长,导致查询词无法准确地表达用户的查询意图,从而导致查询词与Web文档的词汇不匹配问题,无法检索到所需的信息。此外,在大多数情况下,用户一般只对排名在检索结果列表顶端的搜索结果感兴趣,而检索系统返回的这一部分结果中包含大量的与用户信息需求不相关的结果,只有少部分能够满足用户的要求。因此,如何提高信息检索系统中顶端结果的准确率以及用户的满意度一直是当前的研究热点。为解决这些问题,研究者们通常采用两种方法:查询结果重排序和查询扩展。查询扩展方法是通过挖掘与用户信息需求相关的词项,对原始的查询词进行扩展,用扩展后的查询词进行第二轮检索。查询结果重排序方法则在第一轮检索结果的基础之上,对结果列表中的文档进行重新排序。从实用性的角度来说,查询结果重排序方法更受欢迎。现有的查询结果重排序的方法主要考虑文档与文档之间的关系,利用其建立文档关系图,使用基于图的中心节点、半监督学习等技术,重新计算文档与查询词之间的相似度,达到查询结果列表中文档重排序的目的。然而这些方法都只考虑了文档之间的关系,存在一定的局限性。从另一方面来说,将查询结果重排序与查询扩展相结合的研究亦不多。本文在前人的研究基础上,主要做了以下的两个方面的工作:1.本文提出了一种基于多重关系的查询结果重排序方法。该方法在考虑文档与文档关系的基础之上,还考虑了查询结果中排名靠前文档中关键词项与关键词项关系,以及文档与排名靠前文档中关键词项的关系。然后利用正则化框架融合这三种关系,在第一轮检索结果的基础之上,进行查询结果重排序。在信息检索标准评测数据集上的实验结果证明了基于多重关系的查询结果重排序方法比只考虑一种关系的方法更能够显著提高准确率。2.本文在查询结果重排序的基础之上,结合了查询扩展,提出了一种检索排序优化方法。该方法首先通过正则化框架融合文档与文档之间的关系,在第一轮检索结果的基础之上,进行检索结果列表文档重排序;然后基于重排序后结果中排名靠前文档来构建扩展词集合,进而从构建的扩展词集合中选取候选扩展词对原始查询词进行扩展。在真实数据集上的实验结果表明,该方法能够有效提高信息检索系统中排名顶端结果的准确率,从而提高用户的满意度。