论文部分内容阅读
伴随互联网技术的快速繁荣发展,信息检索己经由纯粹的学术研究转变成大多数人信息获取的技术基础。在绝大多数的信息检索系统中,其检索出来的信息(如文档)都以排序的方式返回给用户。因此,如何高效地对文档进行排序成为文档检索模型研究的核心问题之一。目前,利用监督学习的方法构造排序模型是信息检索领域中排序方法研究的热点,称之为排序学习。基于人工标注的数据,排序学习算法构造出排序模型,并且将其用于预测新的未标注数据。
在实际的信息检索任务中,待排序的文档是由不同的查询检索得到的,因此只有同一个查询检索到的文档之间才有序关系。数据集内不同查询及其候选文档组成的数据子集之间存在很大差异,现有排序学习算法在建立排序模型时把数据集中所有查询下的查询.文档对等同处理,无法充分反映由于文档归属于不同的查询所造成的差异,影响排序模型的性能。
针对上述问题,本文提出体现查询差异的多排序模型融合理论框架,在建立排序模型过程中考虑查询之间的差异。该框架首先以查询为单元将训练集划分为多个训练子集,在每一个训练子集上建立子排序模型。接着,使用监督学习方法融合建立的多个子排序模型,在融合过程中调节不同训练子集产生损失的权重,提升排序模型的性能。在体现查询差异的子排序模型生成方法上,从查询及其相关文档之间的内容和单个查询及其相关文档建立的排序模型两个角度度量查询之间的差异程度。本文在真实文档检索数据集上分析查询之间的差异和不同查询相似度度量方法对排序结果的影响。
在体现查询差异的多排序模型融合理论框架下,本文提出基于支持向量机的体现查询差异排序学习算法。将训练集划分为多个训练子集,每一个训练子集由一组相似的查询及其相关文档组成。对每一个训练子集,使用排序支持向量机方法建立子排序模型。不同子排序模型之间可以表征出查询差异对排序的影响。进一步设计基于支持向量机理论的融合函数融合多个子排序模型,并且对融合函数的构造进行了详细的说明和分析,阐述了其工作原理和性质。本文将融合函数的优化问题转化为一个等价二次规划问题求解,进一步证明了融合函数可以体现不同子排序模型产生的损失,并在优化过程中调节子排序模型产生损失的权重。
针对评价指标与损失函数不一致对应的情况,结合排序问题的特性,本文设计一种直接优化评价指标的融合函数来融合子排序模型,进一步修正融合排序模型,提升模型性能。由于大多数评价指标不连续、不可导,因此不易直接优化评价指标。本文使用连续函数拟合评价指标中不连续的部分,优化其下界函数,并证明了其下界函数的凸性,而后使用梯度上升方法进行优化。本文还证明了直接优化评价指标的融合函数可以取得比子排序模型线性合并更好的排序性能。
体现查询差异的多排序模型融合方法在信息检索中有着非常广泛的应用。在文本检索、网页搜索和较大规模文档检索等实际任务中,本文验证了体现查询差异的多排序模型融合方法在信息检索中的应用效果。基于大规模公共数据集合的实验表明,本文提出的体现查询差异的多排序模型融合方法能够比当前流行的排序学习算法取得更好的排序性能。本文还在实验结果统计、算法有效性和时间复杂度等方面对实验进行分析。本文提出的多模型融合思想除排序学习之外,还可应用于多类分类、序列标注等问题,在信息检索、网络搜索、图像处理和生物信息学等领域具有广泛的应用前景。