论文部分内容阅读
随着互联网上各种信息的爆炸式增长,人们可获取和利用的信息越来越多的同时,也往往使得人们淹没在信息的海洋中,时常很难找到所需要的信息,这就是人们常说的信息过载(Information Overload)现象。在此背景下,信息检索技术得到迅速的发展,其中互联网搜索引擎是信息检索技术最重要和常见的应用之一。大量的实验表明相关反馈技术是提高信息检索系统性能的有效手段。本文在前人的研究基础上,主要研究了如何挖掘网络资源和使用机器学习技术进一步提高基于查询扩展的相关反馈技术的性能。基于这两方面,本文所做的主要研究工作包括:(1)针对当前大多数相关反馈算法,候选扩展词权重的计算都是使用扩展词在文档级别的统计信息。然而,一篇反馈文档,即使是人工判定为相关的,都可能包含多个主题(topic),显然并不是每个主题都有益于相关反馈算法。本文认为在较小的粒度上使用相关反馈算法更为合理,研究了如何应用主题模型(topic model)从反馈文档中推导出查询相关主题,并应用于相关反馈算法中。(2)传统相关反馈模型中,对不同的反馈文档都是同等的对待,而实际上,不同的反馈文档的质量各不相同,对相关反馈算法的作用也不一样。针对以上问题,本文重新讨论和修改了Rocchio相关反馈模型,并将其应用于概率检索模型中,提出了一个新的相关反馈机制,即质量偏重反馈模型。(3)研究了通过对高质量网络资源的挖掘来加强相关反馈算法的性能。针对伪相关反馈文档集质量难以得到保证这一问题,本文尝试了使用外部资源(相对于检索文档集)来解决该问题,并提出不同算法利用外部资源。具体,本文提出了一种生成式模型,从社会化标注标签(social annotation tags)中选取高质量的扩展词进行查询扩展,以弥补首次检索中获取的反馈文档质量较低的问题。(4)研究了在相关反馈扩展词选择的过程中,如何考虑不同上下文信息对候选扩展词权重的影响。传统相关反馈模型中,候选扩展词的选择通常是基于其在反馈文档集中的统计信息得到,查询的上下文信息在传统相关反馈模型中通常被忽略。因此,相关反馈过程中可能选用偏离查询主题的扩展词,这就导致检索性能下降。本文中,提出了基于贝叶斯网络的相关反馈方法,该模型可以考虑多种不同的上下文信息。