论文部分内容阅读
随着我国信用经济的快速发展,信贷消费、个人无抵押贷款等业务在各类金融机构中所占的比例越来越大,信用消费方式在我国经济和人们日常生活中的应用也得到了极大的提高和扩展。如何均衡消费信贷业务的规模与个人信贷的违约比率,是目前学术界研究的主要技术性问题之一,也是我国商业银行等各类金融机构在发展中有待解决的战略性技术问题。而这些技术性问题归根结底就是要如何解决金融机构个人信贷的配给风险问题。在个人信贷的配给中,最主要的技术性难题就是如何科学准确的选择个人贷款者,而个人信用风险评估恰好能解决这一问题。通过对个人基本属性、借贷相关等信息并利用机器学习方法进行研究,来量化信用风险,从而对解决个人信贷配给问题具有重要的意义。本文首先选取了Kaggle竞赛平台的信用违约预测(Give Me Some Credit)数据,并对其数据进行了大量的预处理和描述性分析。在本文第四章节中,预处理过程中依据缺失特征的分布情况选择众数填补了缺失值,并根据箱线图法的判别结果剔除了特征中的极端异常值,还绘制了特征的相关系数热力图发现逾期笔数这三个特征之间存在共线性,通过保留重要特征,取另外两个特征比值的方式消除了共线性的影响。在描述性分析过程中发现大多数特征都存在长拖尾性,于是对其进行了对数变换,还对特征中存在的稀疏值进行了适当的计数分箱处理。其次对预处理的数据进行了特征筛选,运用过滤法和嵌入式法分别计算了违约标识和各特征之间的相关性与重要性,并将两者加权求平均计算出综合得分,依据得分的折线图,筛选了前19个特征,建立了个人信用风险评估的指标体系,并利用SMOTE算法对类别存在偏倚的样本数据进行了平衡化处理。最后采用Logistic回归、随机森林、ANN、AdaBoost以及XGBoost等机器学习算法分别构建了单一的个人信用风险评估模型,依据各单一模型的评估指标、算法局限性和适应性选择了相对较优的5个单一模型。利用最大投票(Maximum Voting)法对这5个模型进行了集成;利用这5个单一模型评价指标的综合得分,对各自赋予了不同的权重,进行了加权平均(Weighted Averaging)集成;还利用Stacking集成算法将选择的5个单一模型作为基分类器,元模型选择Logistic回归算法对基分类器的输出进行训练。其中还对选择性集成模型的输出利用Scikitlearn库中的Pipeline函数加了一层工作流管道,对输出结果进行了标准化和纠偏处理。从选择性集成模型之间以及单一模型的比较分析中发现,Stacking选择性集成算法对借款人是否违约的判断,在评估指标、稳健性和适应性等方面都有不错的表现,其中在降低评价指标Logloss损失值上尤为明显。因此可以得到结论,Stacking选择性集成算法集成了各个分类算法的特点达到了博采众长的目的,在解决个人信用风险评估问题上有较大的应用价值。