论文部分内容阅读
排序学习是机器学习中的重要研究方向。传统排序学习研究通常试图优化排序列表的整体排序质量;然而,在信息检索、推荐系统等很多实际任务中,人们通常仅关注位于排序列表顶部的少量样本的准确性。若使用传统排序学习方法,大量的计算资源会被用来优化不被关注的样本的排序质量,造成不必要的计算负担。此时,如何降低这些计算负担从而高效优化排序列表顶部样本的准确性,即顶序学习,便成为了排序学习中的关键问题。近年来,顶序学习的研究已经取得了一些进展,并在诸多领域获得应用。然而,它所涉及的一些重要问题,如计算效率、对数据规模的可扩展性、类别不平衡现象的处理等,仍亟待解决。本文对此进行研究,主要工作包括:1.提出了一种具有线性时间复杂度的顶序学习方法TopPush。为了使m个正样本排在n个负样本之前,以往工作通常考虑每个正样本和每个负样本之间的排序关系,并基于m×n对正负样本设计算法,计算复杂度高达O(m×n)。本文提出TopPush方法,通过在n个负样本中选取代表样本,并基于每个正样本和代表负样本之间排序关系来设计算法;值得一提的是,该方法在顶序学习中首次获得O(m + n)的线性时间复杂度。实验结果显示TopPush比现有方法快10-100倍,同时也能达到和现有最好顶序学习方法相当的排序性能。2.提出了一种能有效利用相关模型的顶序学习方法CAPO。在很多现实任务中,在开始目标任务前,已经存在一些相关模型;例如,基于相似数据的历史遗留模型、基于相同数据但针对不同目标的模型等。以往顶序学习的工作基于训练数据直接构建模型,忽略了这些相关模型包含的重要信息。本文提出CAPO方法,通过使用“模型再适应技术”,能够有效利用多种相关模型帮助构建更好的顶序学习模型。实验结果显示通过利用相关模型,CAPO能够获得更好的顶序排序性能,同时显著加速学习过程。3.提出了一种针对类别不平衡数据的快速顶序学习方法NearPush。以往工作通常假设正、负训练样本数目相当,然而在信息检索、推荐系统等实际任务中经常出现负样本远多于正样本的类别不平衡现象(n>>m);大量的负样本会给学习算法带来沉重的计算负担。如果通过随机采样方式使用部分负样本,会造成信息损失、降低模型质量。本文提出NearPush方法,能够在保持训练数据中关键负样本的同时快速削减其它负样本的数量,从而显著提高算法的执行效率。理论分析和实验结果均显示出NearPush能够显著加快学习速度,同时保证排序质量。4.提出了多标记顶序学习方法MUCA和MUSE。在图像标注等任务中,存在多标记排序问题,它的目标是为每个样本的多个标记进行排序,并希望和样本概念相关的标记排在顶部。以往顶序学习工作研究的都是样本排序,不能处理标记排序问题。本文提出MUCA方法和MUSE方法,通过在多标记分类模型基础上构建标记排序模型,能够有效求解多标记顶序学习问题。实验结果显示出MUCA和MUSE的有效性。此外,本文还将所提出的方法成功应用到GPS异常轨迹检测和潜在客户挖掘两个实际应用任务中。将两个任务分别形式化为顶序学习问题处理,使用CAPO方法整合多种异常检测方法的结果,使用NearPush方法处理潜在客户挖掘任务中的类别不平衡性,均取得了很好的效果。