基于核方法的不平衡数据学习

被引量 : 0次 | 上传用户：cnunicomlxq

【摘要】

：

不平衡数据学习(IDL)是最近几年才引起人们广泛关注的一类特殊的有监督(分类)学习,它主要解决类间训练样本分布不均衡的分类问题,即所谓的类不平衡问题(CIP)。CIP存在于许多

【作者】

：

林智勇

【发表日期】

：

2009年期

【关键词】

：

不平衡数据学习类不平衡问题核方法支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

不平衡数据学习(IDL)是最近几年才引起人们广泛关注的一类特殊的有监督(分类)学习,它主要解决类间训练样本分布不均衡的分类问题,即所谓的类不平衡问题(CIP)。CIP存在于许多重要的实际领域,包括医疗诊断和入侵检测等。现有的学习算法大多是基于类分布平衡和精度最大化而设计的;当用于处理CIP时,它们容易对多类“过学习”,进而导致分类器的整体性能退化。客观地说,CIP已给当前的机器学习界带来了巨大挑战。围绕着如何合理且有效地处理CIP,本文以新兴的核方法尤其是以支持向量机(SVM)为途径开展了如下一系列的相关研究工作:(1)研究了IDL中分类器性能的合理评价这一基本问题。首先,对目前常用的一组评价准则进行了系统的归纳分析,从理论上探讨了传统的精度准则不适于IDL的原因。在此基础上,利用元学习方法,从实验角度研究了在不同准则上得到优化的SVM分类器的性能差异。研究结果表明,SVM虽然是先进的学习方法,但是在IDL中若以精度为优化准则去选择分类器,那么所得到的SVM分类器也是极易产生类别“偏斜”的,它更倾向于将数据预测为多类。而在其他一些更合理的准则上进行优化,则可以获得“纠偏”的SVM分类器,它们的整体性能更高。这一部分的研究结果不但揭示了不同评价准则的差异,而且为SVM的模型选择方面提供了有益的启示。(2)系统地研究了如何通过样本非对称加权而将若干拓展SVM用于处理CIP。以最小二乘SVM以及临近SVM等为代表的拓展SVM,由于求解容易且性能较好,它们也与标准SVM一样被广泛使用。然而,直接将这些拓展SVM用于IDL,往往难以获得令人满意的效果;对样本进行非对称加权是提高它们处理CIP能力的一种最简单易行的做法。针对某些已有样本加权策略的不足,提出了一种新的加权策略。新策略一方面赋予属于少类的样本比属于多类的样本更多的权重,另一方面也尽量减少异常样本的权重。不同的加权策略可方便地与不同的拓展SVM相结合;利用15个基准测试数据集,对各种SVM与加权策略组合进行了实验比较。实验结果表明,新的加权策略在某些情况下有较明显的性能优势。(3)受标准SVM模型的间隔最大化以及结构风险控制训练原则的启发,提出了一种新的大间隔核分类器训练模型,这是本文的一个主要创新之处。新模型不仅具有几何直观意义,更重要的是它强调对分类器泛化能力的优化。原始模型是一个难解的非凸优化模型,通过适当的松弛处理,得到了两个不同的易解的二阶锥规划(SOCP)模型。借助于SeDuMi优化工具箱,在12个基准测试数据集上进行了仿真实验。实验结果表明,与标准SVM模型相比,两个SOCP模型无论是在平衡数据集还是在不平衡数据集上都有一定的性能优势,其中一个还具有较强的稳定性。(4)针对下抽样技术容易造成训练样本信息丢失的问题,提出将它与集成学习相结合,进而提高SVM处理CIP的能力。以Bagging和AdaBoost为集成框架整合下抽样技术,针对已有算法的不足,提出了两个新算法,即,“基于聚类的反对称集成”(CABagE)以及“修正的反对称AdaBoost集成”(MAAdaBE),这是本文的另一个主要创新之处。基于20个基准测试数据集,对各种算法进行了实验比较。实验结果表明,与传统的单一SVM分类器相比,集成SVM分类器对少类的预测能力能得到显著提高,其整体性能也往往更理想。而与已有的集成算法相比,CABagE和MAAdaBE能构建具有更高少类预测精度的SVM集成分类器。进一步地,综合多个评价准则上的比较分析表明,MAAdaBE的整体性能是最好的,这与MAAdaBE中嵌入了一种有效的样本权重平滑机制有关。

其他文献

皮革涂饰过程中N,N-二甲基甲酰胺的残留分布研究

利用高效液相色谱技术建立了涂饰皮革和涂饰浆料中N,N-二甲基甲酰胺(DMF)含量的分析检测方法。通过模拟皮革揩涂试验,考察了皮革样品涂饰后干燥温度和时间对水性聚氨酯中DMF

期刊

涂饰NN-二甲基甲酰胺残留高效液相色谱检测

中医药科学研究的几个基本问题

中医药科学研究的问题众多,其中最关键、最难以回答的问题有三个:第一,中医药是什么?第二,中医药研究什么?第三,如何研究中医药?结合自己多年的工作积累与体会,笔者大胆而冒

期刊

中医药发展

试论敦煌变文同义复词的研究价值

敦煌变文为敦煌俗文学作品中最具分量及影响力者,同义复词则是古代汉语里一种特殊而重要的语言现象。对敦煌变文中的同义复词进行研究,主要有以下三方面的重要价值:其一,能够

期刊

敦煌变文同义复词敦煌学

论晚明布衣文人的旅游活动

晚明的布衣文人是明代游人群体的重要组成部分,在某种程度上而言,是明代的旅游文化异于其他时代的关键所在,颇能反映明代旅游文化的特质。布衣之游中的"独往之游",因其可贵而

期刊

晚明旅游布衣文人山人

废旧轮胎橡胶路面混凝土性能研究

随着我国汽车工业的飞速发展,废旧轮胎的数量急剧增长,2007年产生废旧轮胎约1.7亿条,而且每年以两位数的速度增长,废旧轮胎的处理已成为严重的社会问题。废旧轮胎橡胶微粒用

学位

废旧轮胎橡胶混凝土路面工艺

“宝钢管理”在条钢区域的移植

“宝钢管理”是在引进日本新日铁公司先进的管理方式,通过认真消化、吸收和应用,同时继承和发扬我国传统管理中的优秀经验和做法,逐步形成的“以我为主,博采众长,融合提炼,自

学位

宝钢管理区域移植

试论实现法治目标的三大基本条件

法治目标的实现,必须具备三个方面的基本条件。在观念意识方面,包括公民要具备“善法”与“恶法”的价值观和判断能力,覆盖于全社会的法的统治意识和法律至上的观念以及全社

期刊

法治法律权力权利

当前我国群体性事件成因及预防

当前,我国正处于经济转轨、社会转型、各项改革向纵深方向发展的特定历史时期,因人民内部矛盾引发的群体性事件呈多发态势,涉及的社会面越来越广,有的甚至演变成打、砸、抢、

学位

群体性事件成因预防

ICSID仲裁庭管辖权新近发展动向及其改革初探

当事人书面同意是解决投资争议国际中心(ICSID)仲裁庭取得管辖权的基石。在现行ICSID解决投资争议的仲裁实践中,仲裁庭通过对"同意"进行扩张解释来扩大自身的管辖权,这种做法

期刊

ICSID管辖权解决投资争议国际中心

用JP-303型极谱分析仪测定矿石中铜铅镉锌锡

探讨了用智能化极谱分析仪JP-303型仪器测定矿物中铜铅镉锌锡的分析方法,铜铅镉锌4种元素在HClO4-H3PO4体系中一次扫描连续测定;锡在H2SO4-草酸-次甲基兰体系中测定,所拟方法

期刊

极谱分析法矿石分析铜铅镉锌锡

基于核方法的不平衡数据学习

其他学术论文