银行信用评级中的不平衡分类问题研究

来源 :广东工业大学 | 被引量 : 10次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用评级是一项银行信用风险管理的重要内容,是一种银行评价客户信誉状况、归还贷款能力和未来前景的方法,是一个通过挖掘客户信息来指导业务的过程。在当前大数据时代的背景下,银行所能获得的客户信用数据越来越多,如何通过挖掘数据隐藏的信息从而判断客户信用等级是银行面临的至关重要的问题。在实际的银行信用数据集中,信用良好的客户往往比信用不良的客户多很多,这导致银行信用评级问题实质上是一种不平衡分类问题。在不平衡分类问题中,小类样本往往是关注的重点,如信用评级领域,银行更关注那些信用不良的客户。因此,如何有效地区分和识别小类样本是解决不平衡分类问题的关键。机器学习算法在处理不平衡分类问题时往往不能有效地识别小类样本,因此如何有效地解决不平衡分类问题是重点研究的工作。目前,不平衡分类问题主要从数据层面和算法层面进行研究。数据层面上主要采用重采样方法来平衡数据类别分布,如随机欠采样方法、ROSE方法、SMOTE方法等都是典型的重采样方法;算法层面上集成学习算法经常被用来解决不平衡分类问题。为了验证重采样方法和集成学习算法在处理不平衡分类问题时的有效性,本文采用四组分别来自于UCI数据库和KEEL数据库的不平衡率各不相同的数据集进行仿真实验,实验结果表明重采样方法和集成学习算法的确能够有效提升分类模型对小类样本的识别率。ROSE方法是一种人工合成数据的方法,将其权重系数进行改进之后与随机欠采样方法组合,得到随机混合采样(RHS,Random Hybrid Sampling)方法,之后采用经典的AdaBoost算法作为集成学习算法,这样就得到了RHSBoost(Random Hybrid Sampling Boosting)算法。该算法的基本思想是:首先通过随机欠采样方法来获得平衡的数据集,之后借助改进的ROSE方法来合成更多的人工数据,AdaBoost算法可以更改错误分类的小类样本权重,这样就可以达到增强分类器的目的。本文利用银行信用数据集进行实验,在采用决策树作为基分类算法的前提下,将RHSBoost算法与RUSBoost算法、SMOTEBoost算法、重采样方法和集成学习算法进行对比,证明了RHSBoost算法的可行性和优势。
其他文献
学科"核心素养"已经得到重视和较为深入的研究,化学学科从不同的维度对学科核心素养提出了不同的模型和看法,其中比较得到认可的是宏观辨识与微观探析、变化观念与平衡思想、证
聚甲醛(POM)具有高耐磨性、耐腐蚀性等优异特性,在众多领域得到广泛应用。然而纯POM具有耐光热稳定性差和力学性能不足等缺点。因此本课题选用母粒法制备长效耐候POM复合材料
信息化建设对于医联体的形成与运转具有非常重要的作用,笔者围绕医联体模式下信息化建设与发展进行了探讨,首先介绍了医联体模式下的信息化,然后分析了医联体模式下的信息化
支持向量机是机器学习算法中的一种经典分类方法,具有分类性能好,训练速度快的优点,尤其在非线性分类场景下有较优异的表现。支持向量机以严格的数学推导和坚实的统计学方法
水库大坝在蓄水发挥效益的同时,也会对下游构成潜在的危险,特别是一旦溃坝失事,可能会对生命、财产、基础设施、生态环境、经济社会发展等造成灾难性的破坏。为规范水库大坝
在第十一届中国国际动漫节上,国内从业者不约而同地用“大动画”来形容当前中国动画行业新的生态特征。在动画出版物、动画电视片、动画电游等构成的动画产业布局中,动画电影
类固醇雌激素被认为具有极强的内分泌干扰性和生物活性,在极低浓度下就能引起人体或动物生殖障碍、行为异常和幼体变异.根据近年来全球监测数据,水体类固醇雌激素的含量已临
文章通过对职教音乐教育的现状及原因的分析,阐述了解决职教音乐教育问题的对策,即通过音乐师资建设、改善办学条件、开展艺术类活动及注重音乐基础教育等方面,切实推进职教
本文从项目全寿命期的角度审视地铁安全管理,引入安全设计概念.从设计对施工及运营安全的影响出发,基于事故致因理论和故障树分析技术,构建了设计不当角度的事故致因模型,并
为获得较大的牵引力,推土机采用单根履带板,履刺较高,而挖掘机采用3根、矮刺的履带板形式。单、高刺形式的履带板在粘性土壤上,可有效地提高其牵引附着性能。然而其它地面条