顶序学习及其应用的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hnldlxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序学习是机器学习中的重要研究方向。传统排序学习研究通常试图优化排序列表的整体排序质量;然而,在信息检索、推荐系统等很多实际任务中,人们通常仅关注位于排序列表顶部的少量样本的准确性。若使用传统排序学习方法,大量的计算资源会被用来优化不被关注的样本的排序质量,造成不必要的计算负担。此时,如何降低这些计算负担从而高效优化排序列表顶部样本的准确性,即顶序学习,便成为了排序学习中的关键问题。近年来,顶序学习的研究已经取得了一些进展,并在诸多领域获得应用。然而,它所涉及的一些重要问题,如计算效率、对数据规模的可扩展性、类别不平衡现象的处理等,仍亟待解决。本文对此进行研究,主要工作包括:1.提出了一种具有线性时间复杂度的顶序学习方法TopPush。为了使m个正样本排在n个负样本之前,以往工作通常考虑每个正样本和每个负样本之间的排序关系,并基于m×n对正负样本设计算法,计算复杂度高达O(m×n)。本文提出TopPush方法,通过在n个负样本中选取代表样本,并基于每个正样本和代表负样本之间排序关系来设计算法;值得一提的是,该方法在顶序学习中首次获得O(m + n)的线性时间复杂度。实验结果显示TopPush比现有方法快10-100倍,同时也能达到和现有最好顶序学习方法相当的排序性能。2.提出了一种能有效利用相关模型的顶序学习方法CAPO。在很多现实任务中,在开始目标任务前,已经存在一些相关模型;例如,基于相似数据的历史遗留模型、基于相同数据但针对不同目标的模型等。以往顶序学习的工作基于训练数据直接构建模型,忽略了这些相关模型包含的重要信息。本文提出CAPO方法,通过使用“模型再适应技术”,能够有效利用多种相关模型帮助构建更好的顶序学习模型。实验结果显示通过利用相关模型,CAPO能够获得更好的顶序排序性能,同时显著加速学习过程。3.提出了一种针对类别不平衡数据的快速顶序学习方法NearPush。以往工作通常假设正、负训练样本数目相当,然而在信息检索、推荐系统等实际任务中经常出现负样本远多于正样本的类别不平衡现象(n>>m);大量的负样本会给学习算法带来沉重的计算负担。如果通过随机采样方式使用部分负样本,会造成信息损失、降低模型质量。本文提出NearPush方法,能够在保持训练数据中关键负样本的同时快速削减其它负样本的数量,从而显著提高算法的执行效率。理论分析和实验结果均显示出NearPush能够显著加快学习速度,同时保证排序质量。4.提出了多标记顶序学习方法MUCA和MUSE。在图像标注等任务中,存在多标记排序问题,它的目标是为每个样本的多个标记进行排序,并希望和样本概念相关的标记排在顶部。以往顶序学习工作研究的都是样本排序,不能处理标记排序问题。本文提出MUCA方法和MUSE方法,通过在多标记分类模型基础上构建标记排序模型,能够有效求解多标记顶序学习问题。实验结果显示出MUCA和MUSE的有效性。此外,本文还将所提出的方法成功应用到GPS异常轨迹检测和潜在客户挖掘两个实际应用任务中。将两个任务分别形式化为顶序学习问题处理,使用CAPO方法整合多种异常检测方法的结果,使用NearPush方法处理潜在客户挖掘任务中的类别不平衡性,均取得了很好的效果。
其他文献
自改革开放以来,我国国民经济得到了快速发展,逐渐由农业型国家转向工业型国家,但是就我国目前情况来看,工业经济区域结构存在诸多问题,发展不均衡,工业空间分布不均衡,产业
改革开放以来,我国的经济得到了迅猛的发展,这离不开电力工业的大力支持。电力产品良好的供应直接影响到国家的壮大发展,良好的电力产品供应又取决于优质的电力工程建设。由此可
"市场失灵-政府干预"的事实陈述难以成为法律体系内经济法正当性建构的规范理由。此种事实取向的建构路径规避了宪法作为基础规范的正当性赋予,构成部门法反身消解法律体系的
经过一个月的试运营,10月27日,总投资达5亿元的湖南省肿瘤医院新医疗大楼正式竣工开业。大楼集门诊、医技、住院为一体,地上15层,地下2层,分为31个病区,设有床位1300张。为了减少患
目的:随着早产儿存活率的逐渐增加,早产儿脑白质损伤的发病率也呈现逐年增加的趋势。脑室周围白质软化(periventricular leukomalacia,PVL)是早产儿脑白质损伤的主要类型之一,
在三维视频编码传输与视点合成技术当中引入深度图像的举措,标志着三维电视真正意义上从传统3D-TV到FTV的转变,因为它允许用户随心所欲地改变观看视点,从而给人更加真实的三
水泥混凝土路面的施工质量直接关系到整个工程的质量。本文作者根据多年的实践经验,对影响混凝土路面的因素进行分析,并进一步结合具体的工程案例进行讨论,对路面施工质量控制具
伴随着信息技术的发展,互联网已经成为人们生活中不可缺少的一部分。"互联网+"时代的到来改变了传统的大学生活,同时对大学计算机基础课程也提出了新的要求。本文从"互联网+"环境的
染色控制剂MYCH-151集控制pH值、螫合、分散、匀染作用于一身,将其应用于涤纶分散染料染色,并与常规的分散染料染涤纶的效果进行比较。结果表明,当MYCH-151用量在l.0~2.0g/L,染浴的p
随着城市的发展,工程项目也不断增多。大多数工程项目中,始终存在着关于工程项目的成本控制问题。当前,传统的审计方法,已经不能有效的解决工程项目中存在的问题。全过程跟踪