论文部分内容阅读
不平衡数据在统计机器学习领域成为一个越来越热门的研究课题。目前流行的统计机器学习理论和已有的分类算法,大多是建立在各类样本数据量大致相等的前提下,从而进行各类统计推断或是分析的。然而这些已有的经典方法一旦应用在不平衡数据中,便产生了严重的偏倚现象,使得少数类的识别率很低。但是在现实中的应用场景,少数类所隐含的信息是人们更加关注的。因此使少数类的识别率提高有理论意义和现实意义。本文从两个方面对传统的分类算法进行改进:1.数据层面,提出BOS上抽样方法。该方法基于非参数统计的Boostrap抽样方法。在每次样本的构造过程中取少数类的子样本集,对其求期望值作为新样本。从而扩充了样本容量,使类间不平衡度降低。实验表明,该抽样方法与经典的SMOTE算法相比,其分类指标都有不错的提升;特别是在需要扩容的样本量不多时,BOS算法的构造样本的有效性更强。2.算法层面,提出Ort统计量和Im-AdaBoost算法。本文通过分析AdaBoost算法的权重更新过程,指出其只区分了分类是否正确的情况,而未对正类和负类样本加以区分;并分析了基分类器的多样性对集成学习泛化能力的影响,提出了正交多样性统计量Ort。基于以上两方面的研究,本文针对不平衡数据给出了Im-AdaBoost算法,并且当参数s = 1时,AdaBoost为Im-AdaBoost算法的特殊情况。该算法的泛化误差上界和AdaBoost算法保持一致,为每轮权重更新时的规范化因子的连乘积。实验表明,改进后的算法与AdaBoost分类算法相比,F1和g-mean指标都有一定的提升。