论文部分内容阅读
信息检索系统使用日益复杂的模型及技术寻求改进检索结果的质量,在所有查询上取得了更好的平均检索性能的同时,某些查询可能会得到远远差于基准结果的检索结果,这些难以预期的检索性能下降,将大大降低检索用户对系统的满意度。本文的研究目标是最大化信息检索系统平均检索性能的同时,相较于基准的检索结果,最小化个体查询结果质量下降的风险,即检索结果具备较好的鲁棒性。 本文针对信息检索系统的结果鲁棒性问题进行了深入的探讨,主要的研究成果包括:提出了一种用来评价多个检索结果的排序的鲁棒性指标。 各种检索模型与技术在不同的查询之间存在一定的互补性,为了利用多种模型及技术的不同检索结果实现优势互补来获取鲁棒的检索结果,本文提出了一种针对多个检索结果的排序的风险规避僮(Risk-Averse,RA)评价指标。该指标从相对性能好坏的角度评价多个检索结果的排序的鲁棒性,对更好地实现优势互补具有重要指导意义。 提出了基于带权邻近度度量的检索结果平均性能最大化方法。 为了最大化检索结果的平均性能,本文提出了带权邻近度度量(Weighted Proximity,WP)方法。该方法不仅考虑了查询词项之间的相互联系,而且对它们的重要性进行了量化。通过为各查询词项赋予不同的权重,能够抓住重点,更快速更准确地度量词项邻近度信息。该方法具有概念简单且计算复杂度低等优点,而且能够无缝地应用到大多数信息检索模型当中。实验结果表明,该方法所能带来的平均检索性能提升幅度远远超过当前最好的词项邻近度度量方法之一CRTER。应用了该方法的模型能够显著地提高检索结果的平均性能。 提出了基于鲁棒检索排序算法的检索结果个体风险最小化方法。 为了在平均检索性能最大化的基础上最小化个体查询结果质量下降的风险,本文引入更多的已有模型,提出了基于查询性能预测的鲁棒检索排序算法(Robust RankAlgorithm)。该算法以风险规避值最大化为优化目标,学习查询性能预测模型,然后利用该模型对多个检索结果进行排序,根据排序得到最终的检索结果。实验结果表明,与当前最好的检索算法之一LambdaMART相比,该算法在取得了与LambdaMART几乎一致的平均检索性能的同时,显著地减小了个体查询性能下降的风险,使得检索结果具备了较好的鲁棒性。