论文部分内容阅读
随着人类社会进入大数据时代,数据分析技术也面临着前所未有的机遇和挑战。机器学习技术作为一种主要的现代数据分析技术也在此过程中得到长足的发展。而分类问题作为机器学习领域中最基本的研究问题之一,几十年来都得到了人们持续的关注和研究。发展出了一整套的学习理论、算法模型、软件实现。并在现实世界中得到了极其广泛的应用,取得了巨大的经济和社会效益。但在此过程中,也出现了一些新问题和挑战。本文研究的第一个问题——不平衡分类问题是近年来出现在机器学习领域中的新问题。其中,不平衡分类问题指训练样本的数目在不同类别上分布的很不均衡时,常用的分类算法大多倾向于把样本数较少类别的样本(称作小类样本)错误的分到样本数较多的类别(大类)中。但在许多现实问题中,正确识别出小类样本往往同样重要甚至更为重要。所以不平衡分类问题的主要研究目标就是在保持大类样本准确分类的前提下,提高小类样本的识别率。在关于二类不平衡分类问题的主要研究工作中,研究者一般使用接收者操作特征曲线下的面积(Area Under the receiver operating characteristic Curve,简称为AUC)来衡量分类系统的性能。因此,对不平衡分类问题的研究又在很大程度上转变为对AUC最大化这个问题的研究。在多类问题中,AUC被扩展成MAUC,多类不平衡问题的研究也相应的转化成了对MAUC的最大化问题的研究。本论文从特征选择和分类算法设计的角度对不平衡问题进行了研究。分别针对二类不平衡问题和多类不平衡问题设计了新的特征选择算法,以最大化分类系统的AUC值和MAUC值。在二类不平衡分类问题中,本文提出使用斯皮尔曼等级相关系数来衡量特征之间的冗余性,并把这个冗余性度量和利用AUC本身作为相关性度量的两项结合起来。得到了能显著提高分类系统AUC的特征选择选择算法。在多类不平衡分类问题中,本文在分析传统特征选择算法和直接使用MAUC法的不足的基础上,提出了一种基于分解MAUC的特征选择算法。它首先在每个“一对一”的二类子问题上利用AUC对特征进行有用性排序,然后随机的选择二类子问题并选择其当前最优的特征。实验表明,此方法在能比其他几种分类算法得到更大的MAUC值。在不平衡问题的分类环节研究方面,本文直接对多类不平衡问题进行了研究。我们首先分析了MAUC的计算结构,发现MAUC可以根据分类器输出矩阵的各个列独立计算得到。这意味着最大化MAUC的问题可以通过解决多个相互独立的二类子问题而解决。进一步的推导发现,每一个二类子问题上的优化任务又可以写成一个特殊的二分排序问题。这可以通过文献中已有的算法较好的解决。此外,虽然MAUC作为AUC的多类扩展,己在多个研究工作被用来衡量分类系统的性能。本文也针对MAUC最大化这个目标设计了一种特征选择算法和一种分类算法。但文献中不存在一种简单的方法可以根据代价矩阵自然的把数值型输出矩阵映射成离散的类别标号,并在此过程中最小化分类错误的总代价,这使得最大化MAUC在这个意义上讲缺乏依据。针对这个问题,本文检验了文献中已有的映射方法,并在此基础上验证了MAUC和分类错误总代价之间的负相关性。本文研究的另外一个问题——代价敏感分类问题和不平衡分类问题密切相关。因为在不平衡分类问题中,小类样本往往会比大类样本更为重要。也就是说,错分一个小类样本的代价会比错分一个大类样本的代价更高。而代价敏感分类的研究显式的考虑了不同类型分类错误的代价,并研究如何最小化分类错误的总代价。由于实际中的几乎每一个分类问题都是代价敏感的,因此代价敏感分类问题的研究有着极其重要的现实意义。在大多数已有的关于代价敏感分类问题的研究工作中,研究者通常会假设分类错误代价矩阵会随着数据一起提供给算法,因此一个代价敏感的分类算法只要针对这个给定的代价矩阵训练一个分类器即可。但在许多实际的代价敏感分类问题中,上述假设常常难以成立。即用户经常无法提供一个准确完整的分类错误代价矩阵。针对这个问题,本文提出了一种在现实中更为易用的不确定代价矩阵条件下的鲁棒代价敏感分类问题。它支持用户同时提供一组可能的代价矩阵。然后,我们根据最小最大化据测准则来建立鲁棒的分类器。