论文部分内容阅读
随着经济的发展,人们通过使用信用卡、蚂蚁借呗等新型产品进行提前消费以改变量入为出的传统消费观念。与此同时,形形色色的借贷方法开始流行,各类线上线下的资金借贷方式也变得越来越普遍。但从另一种角度来看,一种形势的盛行往往会引起一系列新问题的产生,当今时代信贷消费方式的流行也不例外。因而,由此所引发的客户违约问题严重影响了信贷行业的发展,进而阻碍了国家的经济发展。这一现象使得现有的信用评估体系面临着巨大的挑战,个人信用评估逐步成为信贷这一行业的研究热点,引入更有效的评估方法将更有助于经济的发展。申请贷款的客户的等级主要分为违约和不违约两种类别,可以将其看作一个分类问题进行研究。对该类问题的研究,主要是对申请贷款客户的个人经济条件、财产情况等个人属性以及历史信用记录建立分类模型,从而达到评估客户信用的目的。本文对国外某银行及国内某贷款机构所提供的金融信用数据集进行了系统的预处理,采用贝叶斯优化算法对模型进行参数优化,基于三种不同的模型对特征进行重要性分析。然后基于Bagging和Boosting两种集成学习的代表算法以及Stacking集成学习算法训练模型。其中Stacking集成分别以随机森林、支持向量机及LightGBM为初级学习器、对数几率回归为次级学习器构建评估模型。此外,本文还加入了对数几率回归、支持向量机、k近邻、决策树、神经网络等简单分类算法来进行比较。最后,使用Friedman及Nemenyi两种检验方法来比较这些模型,并绘制Friedman检验图进一步验证。基于上述模型使用10折交叉验证,验证结果表明Bagging和Boosting这两种集成学习算法训练的模型都起到了一定的性能提升作用,并且后者得到的效果更好,但使用Stacking集成模型的效果并不理想,未能有效地提升分类性能。整体来说,集成算法分类效果还是优于传统单一算法。最后,比较两种检验方法的结果可知,在置信度为95%的条件下认为部分算法的性能不同。