论文部分内容阅读
排序学习是目前信息检索领域的核心技术,也是其他机器学习领域研究的热点之一,它广泛地应用于文档检索、协同过滤、计算广告和智能问答系统等多个领域。排序学习的本质是属于一种机器学习技术,它通过对训练样本数据进行学习寻求最优的排序预测函数,然后将排序函数用于预测新样本对象的排列顺序,并且排序过程是自动进行的而不需人为干预。目前研究者们提出了很多排序学习相关的算法,按照输入形式和损失函数的区别可以将这些算法分为三大类:点级方法(pointwise approach)、偏序对方法(pairwise approach)和列表级方法(listwise appraoch)。排序学习是一种有监督的机器学习技术,因此需要训练样本都带有标签。然而在实际应用中,采集到的样本数据往往是没有标签的,需要人工对其进行整理并标注,当面对海量数据时工作量巨大,耗时耗力。因此半监督排序越来越成为排序学习领域研究的前沿热点问题,它只需要人工对少量样本进行标注,就可以对整个样本集进行学习,大大减少了标注代价。因此本文主题是研究半监督情况下的高效的排序学习算法,针对半监督排序学习算法的两个阶段各自进行了研究,其一是利用半监督学习对未标注样本进行标注,其二是对当前性能认为最好的listwise型排序模型进行改进。研究的主要工作如下:首先,本文提出了基于低秩图的半监督排序学习的一般框架,并设计了基于该框架下的RankSVM半监督排序学习算法。我们以文档检索中的排序学习为例,我们将文档的低秩图构建过程归纳为求解一个带约束的低秩矩阵的优化问题,并利用拉格朗日乘子法给出了优化问题的解。其次我们利用标签传播算法(LPA)对低秩图进行迭代传播,将已标注文档的标签传递到未标注文档。为了解决大型图上LPA迭代速度慢的特点,本文使用Spark分布式平台上的Graphx图并行计算组件来执行低秩图上的LPA迭代算法,提高了文档标注的效率。最后将所有已标注文档用于有监督的学习,训练出RankSVM排序模型。实验效果表明基于低秩图的半监督排序算法能够有效利用未标注样本信息,提高排序的精度和效率。其次,针对当前大多数listwise型排序模型对排序列表的顶部排序的正确性强调不够,我们考虑使用代价敏感的listwise型排序模型,但当前的代价敏感的listwise型排序模型忽略了高维特征(包括冗余特征和对排序性能影响极小的弱特征)对模型的精度和计算效率的影响。因此本文在当前性能良好的ListMLE模型上同时融入代价敏感学习和稀疏学习的思想,提出新的算法SparseCSListMLE。具体而言,为了实现代价敏感性,在概率函数上为每个文档赋予不同的权重以致排序列表顶部排序出错会造成更大的损失。为了实现稀疏性,在排序模型中加入L1正则项,并利用一种改进的近端梯度下降(proximal gradient descent)学习算法求解模型参数。在公开数据集上的对比实验表明SparseCSListMLE在排序精度和计算速度上相比基线算法都有所提升。最后结合上述两个阶段的研究成果,提出了基于低秩图框架下的SparseCSListMLE半监督排序算法,即首先利用基于低秩图结合标签传播算法的方法对未标注样本进行标注,然后将所有已标注样本用于训练SparseCSListMLE模型,在公开的数据集Letor上进行实验验证了该算法的有效性。