论文部分内容阅读
信用评级是一项银行信用风险管理的重要内容,是一种银行评价客户信誉状况、归还贷款能力和未来前景的方法,是一个通过挖掘客户信息来指导业务的过程。在当前大数据时代的背景下,银行所能获得的客户信用数据越来越多,如何通过挖掘数据隐藏的信息从而判断客户信用等级是银行面临的至关重要的问题。在实际的银行信用数据集中,信用良好的客户往往比信用不良的客户多很多,这导致银行信用评级问题实质上是一种不平衡分类问题。在不平衡分类问题中,小类样本往往是关注的重点,如信用评级领域,银行更关注那些信用不良的客户。因此,如何有效地区分和识别小类样本是解决不平衡分类问题的关键。机器学习算法在处理不平衡分类问题时往往不能有效地识别小类样本,因此如何有效地解决不平衡分类问题是重点研究的工作。目前,不平衡分类问题主要从数据层面和算法层面进行研究。数据层面上主要采用重采样方法来平衡数据类别分布,如随机欠采样方法、ROSE方法、SMOTE方法等都是典型的重采样方法;算法层面上集成学习算法经常被用来解决不平衡分类问题。为了验证重采样方法和集成学习算法在处理不平衡分类问题时的有效性,本文采用四组分别来自于UCI数据库和KEEL数据库的不平衡率各不相同的数据集进行仿真实验,实验结果表明重采样方法和集成学习算法的确能够有效提升分类模型对小类样本的识别率。ROSE方法是一种人工合成数据的方法,将其权重系数进行改进之后与随机欠采样方法组合,得到随机混合采样(RHS,Random Hybrid Sampling)方法,之后采用经典的AdaBoost算法作为集成学习算法,这样就得到了RHSBoost(Random Hybrid Sampling Boosting)算法。该算法的基本思想是:首先通过随机欠采样方法来获得平衡的数据集,之后借助改进的ROSE方法来合成更多的人工数据,AdaBoost算法可以更改错误分类的小类样本权重,这样就可以达到增强分类器的目的。本文利用银行信用数据集进行实验,在采用决策树作为基分类算法的前提下,将RHSBoost算法与RUSBoost算法、SMOTEBoost算法、重采样方法和集成学习算法进行对比,证明了RHSBoost算法的可行性和优势。