针对类别不平衡和代价敏感分类问题的特征选择和分类算法

被引量 : 0次 | 上传用户:wahyle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会进入大数据时代,数据分析技术也面临着前所未有的机遇和挑战。机器学习技术作为一种主要的现代数据分析技术也在此过程中得到长足的发展。而分类问题作为机器学习领域中最基本的研究问题之一,几十年来都得到了人们持续的关注和研究。发展出了一整套的学习理论、算法模型、软件实现。并在现实世界中得到了极其广泛的应用,取得了巨大的经济和社会效益。但在此过程中,也出现了一些新问题和挑战。本文研究的第一个问题——不平衡分类问题是近年来出现在机器学习领域中的新问题。其中,不平衡分类问题指训练样本的数目在不同类别上分布的很不均衡时,常用的分类算法大多倾向于把样本数较少类别的样本(称作小类样本)错误的分到样本数较多的类别(大类)中。但在许多现实问题中,正确识别出小类样本往往同样重要甚至更为重要。所以不平衡分类问题的主要研究目标就是在保持大类样本准确分类的前提下,提高小类样本的识别率。在关于二类不平衡分类问题的主要研究工作中,研究者一般使用接收者操作特征曲线下的面积(Area Under the receiver operating characteristic Curve,简称为AUC)来衡量分类系统的性能。因此,对不平衡分类问题的研究又在很大程度上转变为对AUC最大化这个问题的研究。在多类问题中,AUC被扩展成MAUC,多类不平衡问题的研究也相应的转化成了对MAUC的最大化问题的研究。本论文从特征选择和分类算法设计的角度对不平衡问题进行了研究。分别针对二类不平衡问题和多类不平衡问题设计了新的特征选择算法,以最大化分类系统的AUC值和MAUC值。在二类不平衡分类问题中,本文提出使用斯皮尔曼等级相关系数来衡量特征之间的冗余性,并把这个冗余性度量和利用AUC本身作为相关性度量的两项结合起来。得到了能显著提高分类系统AUC的特征选择选择算法。在多类不平衡分类问题中,本文在分析传统特征选择算法和直接使用MAUC法的不足的基础上,提出了一种基于分解MAUC的特征选择算法。它首先在每个“一对一”的二类子问题上利用AUC对特征进行有用性排序,然后随机的选择二类子问题并选择其当前最优的特征。实验表明,此方法在能比其他几种分类算法得到更大的MAUC值。在不平衡问题的分类环节研究方面,本文直接对多类不平衡问题进行了研究。我们首先分析了MAUC的计算结构,发现MAUC可以根据分类器输出矩阵的各个列独立计算得到。这意味着最大化MAUC的问题可以通过解决多个相互独立的二类子问题而解决。进一步的推导发现,每一个二类子问题上的优化任务又可以写成一个特殊的二分排序问题。这可以通过文献中已有的算法较好的解决。此外,虽然MAUC作为AUC的多类扩展,己在多个研究工作被用来衡量分类系统的性能。本文也针对MAUC最大化这个目标设计了一种特征选择算法和一种分类算法。但文献中不存在一种简单的方法可以根据代价矩阵自然的把数值型输出矩阵映射成离散的类别标号,并在此过程中最小化分类错误的总代价,这使得最大化MAUC在这个意义上讲缺乏依据。针对这个问题,本文检验了文献中已有的映射方法,并在此基础上验证了MAUC和分类错误总代价之间的负相关性。本文研究的另外一个问题——代价敏感分类问题和不平衡分类问题密切相关。因为在不平衡分类问题中,小类样本往往会比大类样本更为重要。也就是说,错分一个小类样本的代价会比错分一个大类样本的代价更高。而代价敏感分类的研究显式的考虑了不同类型分类错误的代价,并研究如何最小化分类错误的总代价。由于实际中的几乎每一个分类问题都是代价敏感的,因此代价敏感分类问题的研究有着极其重要的现实意义。在大多数已有的关于代价敏感分类问题的研究工作中,研究者通常会假设分类错误代价矩阵会随着数据一起提供给算法,因此一个代价敏感的分类算法只要针对这个给定的代价矩阵训练一个分类器即可。但在许多实际的代价敏感分类问题中,上述假设常常难以成立。即用户经常无法提供一个准确完整的分类错误代价矩阵。针对这个问题,本文提出了一种在现实中更为易用的不确定代价矩阵条件下的鲁棒代价敏感分类问题。它支持用户同时提供一组可能的代价矩阵。然后,我们根据最小最大化据测准则来建立鲁棒的分类器。
其他文献
韵律活动是指幼儿园所有伴随音乐进行的身体艺术表现活动,其作用是为发展幼儿的节奏感和动作的协调优美,帮助幼儿更好地感受、理解、表达音乐美。其中律动、舞蹈、音乐游戏为
本文通过简单介绍阿伦·科普兰对音乐欣赏的主要观点,结合自身的学习和体会,希望对提高音乐学习者的音乐鉴赏力有所帮助。
当前我国正处于调整产业结构、转变经济发展方式的重要时期,面临世界新科技革命带来的机遇和挑战,创新必须作为推动经济和社会发展的核心驱动力。党的十七大报告也明确指出,
飞机在运营之前必须制定出维修大纲。根据新研民用飞机缺少使用数据和使用经验的情况,依据类似机型结构维修大纲的制定经验,同时结合维修指导小组思想,提出案例推理的方法,制
[目的]探讨早期肠内与肠外营养护理对颅脑外伤昏迷病人营养指标、免疫功能及并发症的影响。[方法]选取2013年1月—2016年1月我院收治的行早期肠外营养护理的颅脑外伤病人64例作为
随着经济发展的脚步,大学生的消费和生活水平也在不断提高的同时,大学生消费问题的日益突出,引起各界人士的关注。大学生是一个特殊群体,没有固定的经济收入,但是一个有消费需求的
油画作为具有世界性的绘画种类之一起源于西方,已有数百年的发展历程和深厚的传统,其中每个时代都有登峰造极的大师凸显,在艺术史上留下不朽的传世名作。他们各领风骚,虽此起
人类在每个年龄段都会持有错误概念,它在各年龄阶段出现的频率变化不大,所以怎样使人们转变错误概念是一个非常有意义的过程。概念转变指的是个体在前概念的基础上不断对所学
<正> 在最近三年中,我们在聚酯反应动力学方面进行了下列工作:(一)确定了聚酯反应动力学的反应级数,澄清了长久以来关于聚酯反应级数的争论;(二)建议了一种新的酯化反应,聚酯
离合器是汽车传动系统中重要的组成部分,其保证汽车平稳起步、使传动系换档时工作平稳的同时防止系统过载。膜片弹簧是膜片弹簧离合器中重要的压紧元件,具有良好的非线性特性