论文部分内容阅读
近年来随着我国国际地位与日俱增,各行业平稳迅速发展,国内经济环境形势良好。在此背景下,银行业同样迎来了发展机遇。信贷业务作为商业银行开拓个人消费市场、发展潜在优质客户的强有力工具,同时也承担着巨大的信贷风险。随着个人信贷中个体需求差异性日趋显著,个人信贷模式呈现多样性,但是无论模式如何演变发展,关键点仍在于信贷风险管理。由于个人信贷业务存在业务频繁度高,客户信息体量大等特殊性,使得数据挖掘与分析技术在信贷风险管理方面发挥了越来越多的重要作用。本文围绕基于集成学习算法模型的信贷违约风险评估体系展开,利用实际信贷数据将数据挖掘相关理论技术与信贷违约风险管理结合,通过对信贷数据进行特征分析和违约预测模型的有效性论证,为商业银行信贷风险管理能力提升献上微薄之力。信贷违约数据是一种常见非平衡数据,为了降低数据不平衡性对预测模型产生的影响,在建模分析前必须要进行数据平衡处理。本文首先利用边界样本修剪方法剔除“TomekLink对”中的多数类样本,再利用高斯混合模型对特征空间中的少数类样本区域进行划分,通过分区域选取少数类样本进行少数类样本生成操作,减小了SMOTE算法中由于随机采样导致新生样本混叠现象发生的概率,最后利用过采样与欠采样相结合方式进行平衡阈值调整,最终达到数据平衡目的。实验中,通过比较数据平衡前后各集成模型的预测结果和误差发现,虽然平衡前后预测精度有小幅波动,但少数类样本错分率明显得到优化,最大优化幅度达到28.5%。对于信贷风险管理者而言,与高精度的预测结果相比,更看重造成该结果的原因。本文利用随机森林变量重要性评判体系对各维度特征进行重要性打分并排序。针对不同分数区间的特征进行交叉分析,在约简属性提升模型稳定性的同时为信贷风险管理者展现出隐藏在数据背后的属性意义。实验中,按降序方式将特征重要性评分划分为4个分数段,得分最高的特征变量分别为信用评级和逾期次数,最低为家庭成员数目、现居住地等。再通过增删处于不同分数段的特征进行随机森林建模分析。实验表明,得分区间在0.5以下的变量不会对模型造成较大影响,因此在授信过程中不作为重点参考量。对于0.5以上的各分数段特征而言,信贷审核过程中必须严格查验。在随机森林模型建立过程中,采用无选择性集成和简单的少数服从多数投票原则进行最终结果判定,忽略了模型中各决策树之间的强弱差异导致预测精度降低。针对该缺点,本文通过相似性度量有选择性地构成决策树簇,并在最终投票环节使用动态加权投票融合方法进行结果输出,一定程度上提升了随机森林模型精准度与稳定性。在实验中,通过与5个信贷违约预测模型对比,CM-RF模型的平均预测精准度达到86.34%,低于两种SVM混合模型,并且在少数类样本错分率上取得了9.29%的最优结果。最后通过ROC曲线图对比可知,本文模型AUC值为0.8839,相较于其他对比模型,稳定性最高。