论文部分内容阅读
排序问题是信息检索领域的核心问题,多年来一直是信息检索领域研究的热点。Web是当今最大的非结构化数据集合,如何排序web文档必然成为了信息检索领域研究的焦点所在。而语言模型建立在完善的统计理论基础之上,可以采用统计学方法便捷的进行模型参数估计,同时能够很好的适用于各种复杂的检索问题。作为处理网页检索问题的性能最好的非监督方法之一,在引入到信息检索领域之后,就得到了大量学者的重视和研究。近些年来,基于语言模型的方法逐渐形成了一套完整的检索模型体系。经典语言模型在处理网页排序问题时,存在着对查询单词之间的关联考虑不足、进行未见词平滑时对数据的层次没有加以更好的利用以及对于文档先验概率的忽视三个方面的问题。本文由语言模型中文档查询似然概率、未见词平滑算法和文档先验概率这三个方面入手,探讨了其中的一些改进。
本文由基于贝叶斯风险最小化理论得出的相似性公式为出发点,以查询产生每个单词及元组的概率不同为假设,提出了考虑查询单词之间多个元组共同出现的概率分布的方法建立查询模型。并且,在此模型基础之上,提出了基于多元组的文档-查询相似度算法。同时,考虑了算法实现的可能性和可用性,给出了一个切合实际的算法,并且用实验验证了算法的有效性。本文在实验结果中,分析了该算法的引入所带来性能提升的主要因为,总结了该算法本身的优劣。
同时,本文探讨了互联网数据本身的结构特性和层次特征,即互联网本身是由文档、目录、站点、整个互联网这四个层次逐层组成的有机结构。本文在此基础上,提出了一种基于这四个层次数据来进行语言模型中未见词平滑的算法。同时,本文考虑了多层次算法实现细节和数据结构相关内容,并且用实验验证了多层平滑算法由于加入了更多的层级信息,给平滑带来了一定程度的性能提升。
与以往的工作不同,本文将文档的先验概率视为语言模型非常重要的一部分,本文通过探讨多种文档先验概率知识和文档相关性之间的相关关系来说明,很多与文档和查询内容无关的先验知识可以用于排序之中。同时,本文尝试了使用朴素贝叶斯方法来进行多种先验知识的融合,并对这种融合后的语言模型的性能进行了实验验证,结果表明语言模型的整体性能获得了很大的提升。