论文部分内容阅读
分类算法广泛应用于模式识别、预测等领域,在传统的分类问题研究中,通常基于如下假设:(1)不同类别的样本数量大致相同;(2)不同类别的误分类代价大致相同。在实际应用中,上面2个假设往往不成立,得到的数据通常是不平衡数据。在这种情况下,使用传统的分类算法分类不平衡数据就达不到期望的效果,特别是少数类样本的识别率比较低,但在实际应用中少数类样本如入侵行为、癌症患者等是非常重要的数据,识别率要求很高。从近10年发表关于不平衡数据分类的机器学习国际顶级会议上的论文来看,不平衡数据分类越来越受到研究者的重视。虽然研究者提出了采样算法、代价敏感算法、特征选择等算法来试图解决不平衡分类中的问题,但是过拟合、类别不均衡、特征冗余问题仍然比较严重,故研究不平衡数据的分类问题具有重要的现实意义。本文主要从数据、算法、特征3个层面研究基于蒙特卡洛神经网络的不平衡数据分类算法。具体内容如下:(1)针对传统分类算法在不平衡分类中存在的过拟合问题,采用蒙特卡洛神经网络算法(Monte Carlo Neural Network Algorithm,MCNNA)进行了研究,蒙特卡洛神经网络算法以经验风险最小化、结构风险最小化和设计风险最小化策略来指导蒙特卡洛神经网络算法的训练从而改善过拟合。另外,蒙特卡洛神经网络算法通过选择更多的隐藏层节点提高了算法的精度。通常情况下,隐藏层节点增加到输入节点的10倍后算法精度不再增加。通过在网络钓鱼数据集上的实验验证了蒙特卡洛神经网络算法相对于传统的分类算法在改善过拟合方面效果更佳。与朴素贝叶斯、K近邻、逻辑回归、决策树、线性支持向量机、径向基支持向量、线性判别分析等七个算法进行对比实验,相比于朴素贝叶斯算法,蒙特卡洛神经网络算法在整体识别率上提高6.48%,在真正类率上提高6.78%,在假正类率上降低6.25%,总体而言,蒙特卡洛神经网络算法相对于其他7种分类算法在多个指标上性能较好。(2)针对不平衡分类的类别不均衡及特征冗余问题,提出了基于蒙特卡洛神经网络的混合过采样特征选择算法——NBG(Negative Binary General)算法。NBG算法通过过采样算法选取少数类样本及其最近的多数类样本来生成有效的样本改善类别不均衡问题,通过二进制蚁狮算法提取关键特征去除冗余特征,采用蒙特卡洛神经网络算法作为分类算法改善过拟合。分别在7个不平衡数据集上进行了分类实验,与传统的分类算法相比,NBG算法能够更有效地去除冗余特征、改善类别不均衡性,在少数类样本的分类性能上更优。其中,在数据集breast_tissue、bupa、cleveland、ecoli01VS235、glass4、wisconsin、glass6上,相比于蒙特卡洛神经网络算法,NBG算法在少数类识别率上分别提高62.5%、17.24%、66.67%、24%、33.33%、4.17%、33.33%。(3)针对传统的分类算法对于不同类别的样本采用相同的误分类代价,导致少数类识别率不高的问题,提出了CSMCA(Cost Sensitive Monte Carlo Adaptation)算法。CSMCA算法通过二进制蚁狮算法选择少数类的代价参数和提取关键特征来优化蒙特卡洛神经网络算法从而解决不平衡数据分类中代价参数选择和特征冗余的问题。分别在7个不平衡数据集上进行了分类实验,与传统的分类算法相比,CSMCA算法选择的代价参数更有效,整体分类性能更好,且能显著提高少数类样本的分类性能。其中,在数据集breast_tissue、bupa、cleveland、ecoli01VS235、glass4、wisconsin、glass6上,相比于蒙特卡洛神经网络算法,CSMCA算法在少数类识别率上分别提高62.5%、17.24%、66.67%、28%、33.3%、4.17%、33.33%。(4)针对高维小样本不平衡分类中存在类别不均衡、特征冗余和过拟合问题,通过结合过滤型特征选择算法和包装型特征选择算法提出了UIN(Union Information Negative)算法和UIC(Union Information Cost)算法。UIN算法和UIC算法都是通过对信息增益和基尼指数进行并集提取有效特征,不同之处在于UIN算法采用NBG算法作为包装型特征选择算法改善类别不均衡和过拟合问题,UIC算法采用CSMCA算法作为包装型特征选择算法改善类别不均衡和过拟合问题。将UIN算法和UIC算法在7个高维小样本不平衡的基因数据集上进行了分类实验,结果表明UIN算法和UIC算法能够很好地改善类别不均衡,降低过拟合带来的负面影响,有效地提取关键特征,在7个基因数据集上UIN算法和UIC算法的整体识别率和少数类识别率都是1,优于传统的分类算法。