论文部分内容阅读
随着Web2.0时代的到来,互联网信息呈现爆炸式增长。如何从海量信息中迅速找出用户需要的数据成为了信息检索研究的重点。排序是信息检索系统的重要组成部分,传统的检索模型主要分为两个类别,一类基于文档内容,判定查询与文档的相关程度,称为查询依赖模型,如布尔模型,向量空间模型等;另一类基于链接分析,判定文档自身的重要性,如PageRank, HITS等,称为查询独立模型。这些模型各有特色,如何将它们结合起来,创建更高效的新模型成为了研究者关注的焦点,排序学习技术(Learning to Rank)应运而生。排序学习使用机器学习技术来解决排序问题,有效提高了排序性能。目前排序学习方法主要归为三类:基于单个文档的点级(Pointwise)方法,基于文档对的对级(Pairwise)方法,基于文档列表的列表级(Listwise)方法;而基于文档列表的列表级方法又可分为两个子类,即直接优化信息检索评价方法和最小化列表级排序损失算法。直接优化评价方法的排序学习算法将整个文档列表作为一个对象考虑,更加接近实际意义的排序,因此其排序性能一般优于前两类算法。本文对直接优化信息检索评价方法这一子类算法进行了研究,并提出了新的算法,进一步提升了排序学习模型的排序性能,主要成工作如下:(1)本章中,我们提出了一种排序学习方法SVMERR,使用结构化SVM方法优化信息检索评价方法Expected Reciprocal Rank (ERR),相比于优化评价方法MAP和NDCG而言,优化ERR评价方法对排序性能有更大的提升,ERR评价方法基于级联模型,将用户浏览行为因素考虑进来,而结构化SVM方法能够保证找到全局最优解,因而将二者融合能够有效的提升排序性能。(2)本章中,我们扩展了基于Boosting框架的排序学习方法AdaRank,并将其用于优化三种信息检索评价方法:ERR, MRR和Q-measure。我们期望采用AdaRank排序框架优化这三种评价方法能够取得更好的排序性能。排序学习方法是基于特征的,而目前对于特征生成的研究很少,受此启发,我们提出了一种特征生成框架FGFIREM,采用本文提出的排序学习算法作为特征生成因子,将其产生的排序分数作为新特征,以丰富特征空间,并采用本章提出的两种算法AdaRank-ERR和AdaRank-Q在新特征上学习排序模型。在LETOR3.0数据集上的实验结果表明,相比于现有排序算法,本章提出的方法有效的提升了排序性能。