论文部分内容阅读
语言模型是一种全新的信息检索框架,其基本思想是:为每篇文档估计一个语言模型,然后计算在该语言模型下“生成”查询的概率,并根据此概率对所有文档进行排序。语言模型为信息检索领域提供了一种全新的有别于其他经典检索模型的评价文档的思路和机制,从而提升了人们对全文本检索的认知。许多实验也证明了语言模型是一个拥有良好理论基础并且检索效果出众的信息检索框架。虽然语言模型在信息检索领域已取得了巨大的成就,但它仍然还有很大的提升空间。本文将通过以下几点来对语言模型进行扩展:首先,将经典语言模型——查询似然模型,和段落检索相结合,并在此基础上提出一种全新的检索模型,即PLM模型。该模型不仅继承了查询似然模型理论完备检索效果出众等优点,又通过利用段落检索将文档的段落特征引入到文档的匹配过程中去,进而优化了查询似然模型在处理长文档尤其是那些跨域多个主题的长文档的能力。其次,为PLM模型引入启发式查询扩展方法,从而降低其词表不匹配的风险,进而达到提升其检索性能尤其是提升其召回率的目的。其中,启发式查询扩展方法是本文提出的一种全新的基于伪相关反馈技术的查询扩展方法。它不仅克服了以往相关反馈需要通过与用户进行交互才能进行查询扩展的弊端,还改变了经典查询扩展方法以词频共现度来进行选词的惯例,而是采取了一种基于语言模型的启发式选词策略来进行扩展词的选取。通过本文后续的实验,也证明了启发式查询扩展方法要优于经典的查询扩展方法,并且相较于经典查询扩展方法,其最大提升PLM模型的MAP幅度为54.7%。最后,为PLM模型引入聚类平滑方法,减轻其因数据稀松而导致对文档和段落的语言模型估计不准确的风险,进而达到提升其检索性能的目的。其中,聚类平滑方法是一种基于Dirichlet平滑方法的全新平滑方法。它除了继承Dirichlet平滑方法平滑效果稳定的优点外,还通过优化Dirichlet平滑方法引入到平滑过程中的文档统计特性,和重新选取文档模型的备选模型等方式,来提升Dirichlet平滑方法的平滑效果。而本文后续的实验也证明了聚类平滑方法达到了预期的目标,其相较于Dirichlet平滑方法来说,最大提升PLM模型的MAP幅度为61.6%。