基于在线学习的直接优化AUC算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:linux_secway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类学习作为机器学习和数据挖掘的重要研究领域,其中二分类学习由于它的广泛的应用受到众多学者的关注。传统二分类算法大多数关注平衡环境,而在实际应用中,真实数据在两个类别之间存在不一致,对此很多学者对不平衡二分类问题产生了浓厚的兴趣,其中针对不平衡二分类问题提出了很多直接优化不平衡分类准则的算法,作为其中的代表,直接优化AUC算法由于关注的是正负样本之间的偏序关系,因此逐渐成为研究的热点,也取得了良好的效果。已有的多数直接优化AUC算法采用批学习方式,这样使得一次计算时需要存储大量的样本和计算所有样本的梯度信息,其效果降低并且不适合大规模数据场景。在此背景下,本文将在线学习和直接优化AUC相结合,提出研究面向大规模数据的在线优化AUC算法,利用在线学习在大规模环境下的优势,首先提出了基于自适应正则项的在线AUC优化算法,随后针对大规模高维环境,提出了基于自适应更新的稀疏在线AUC优化算法,现将本文的主要工作总结如下:(1)针对传统的在线学习只适合处理单样本数据,并不适合处理面向AUC的样本对问题,因此本文提出了基于自适应正则项的在线AUC优化算法。具体而言,通过假定模型符合多元高斯分布,i.e.w N(?,(50)),根据经验分布和概率分布之间的差异性,结合大边缘训练(large margin training)、置信度加权(confidence weighting)和处理不可分离数据(handle non-separable data)的三个属性定义了面向AUC的目标函数。在每次接收到新样本后,对预测函数进行自适应正则化,可有效获得分类模型;同时,该算法与置信度加权在线学习技术相关联,置信度(协方差(50)的逆特征值度量)随着样本迭代更新而增加,而置信度反应每一维数据之间的相关性,利用其相关性来自适应更新学习率策略,能够有效提升算法的整体性能。理论分析表明所提算法具有O(T)的regret界限,其后在大规模实验数据集上验证了所提算法的有效性。(2)针对很多真实的数据规模中,不仅数据规模大而且数据的维度很高,现有的在线优化AUC算法虽然已经取得了较好的分类效果,但是对高维数据关注较少。对此,本文提出了一个面向高维数据的自适应更新的稀疏在线AUC优化算法。针对大规模高维数据问题,首先将AUC最大化问题转化为基于L1正则项的凸优化问题,通过使用COMID作为内部优化算法,融入Bregman散度作为模型的更迭方式。同时,结合Adagrad充分利用梯度的二阶信息,获得一个适合不同维度的自适应步长来有效更新稀疏分类模型。为了进一步提升算法的性能,一种基于多项式衰减的策略被提出,理论分析和大规模高维数据的实验表明所提算法的有效性。
其他文献
供应链管理代表了当前经济环境下的趋势与需要.追随这一热点问题,总结归纳出研究供应链的方法,分为控制理论、运筹学和仿真三大类,并分别介绍了这些方法的起源和最新发展.
目的了解合肥市以巢湖为水源的水厂取水口浮游藻类污染情况.方法于1999年2、5、8、11月份(分别代表冬、春、夏、秋季)分别距以巢湖为水源的水厂岸边1.5 km(A点)和3.0 km(B点)
以“种子萌发的条件”一课为例展开案例分析,借助CNKI平台查找资料,通过论证式教学模式探究种子萌发的自身条件和外界环境条件,从而阐述基于CNKI的论证式教学在初中生物学课
本文从我国生产力发展的现实出发,认为我们的经济建设必须毫不迟疑地尽快转入以生产力内涵发展为主的新轨道。作者认为,生产要素与生产力要素,一直为人们所混同,本文在对此作
经济的快速增长伴随着大量矿产资源的消耗,对矿产资源的勘探迫在眉睫。作为一种重要的资源探测方法,瞬变电磁法因此得到了广泛应用。目前国内外传统瞬变电磁发射机采用交直交
农业发展是我国走向世界强国之路的基础,是国家和人民的生活基石。随着互联网技术以及相关技术的发展,物联网技术逐渐应用于农业生产领域,智慧农业得到了发展,智慧农业的出现改变了传统的农业生产方式,挺高了作物产量的同时节省了资源,因此智慧农业将是农业发展的必要趋势。本论文针对温室大棚种植环境,结合物联网的关键技术设计并实现一套智慧农业大棚监控系统。在对智慧农业发展的现状和相关技术原理进行了研究分析的基础上
促进工业化、信息化、城镇化、农业现代化同步发展,是十八大在理论创新方面的重大成果,是指导现代化建设的大思路、大战略。这一战略的部署和实施,标志着我国对中国特色社会主义
在通信技术和互联网技术飞速发展的时代下,人们的生存方式和学习法方式发生了很大变化,以网络为基础的在线学习其以开放性、灵活性的特点受到了广大学习者和教育研究者的青睐
辣椒素(Capsaicinoid)是辣椒属植物特有的次生代谢产物,在食品添加、医疗保健、生物防治等方面具有广阔的应用前景和极高的生产价值,但我国作为辣椒原材料的生产大国,在辣椒素的工业生产上一直无法解决辣椒材料利用率过低的生产成本问题,纠其原因,不同栽培种辣椒中辣椒素含量差异过大,高辣度的C.chinese类型辣椒作为短日照植物无法在我国特别是北方地区广泛生产种植,而在我国广泛栽培的C.anuum
统计和分析了历年江西省在全国中小学实验说课活动中的获奖情况,结合参赛心得和评审经验,为参赛者提供了参赛建议。