论文部分内容阅读
近年来,商业银行等机构的业务方向逐步趋向于零售化,这个趋势使得信贷业务成为了其重点业务,个人信用贷款的需求量不断增长,并且已然成为银行业务的支点,并且在“互联网+”的环境下,小到生活用品,大到购车购房,个人信贷业务深入到了生活的方方面面。大力发展个人信贷业务成为了信贷机构提高盈利的主要措施之一。但是信用经济的快速发展也带来了信贷风险。因此,研究违约风险相关理论,严格对风险进行评级,做好风险控制是非常重要的。本文从机器学习和集成学习的角度出发,采用了国外公开的个人信用贷款真实数据进行实证研究。在数据的处理方面,本文首先采用过滤法进行影响特征的选取,将选取的变量离散化赋值,然后采用SMOTE算法处理了违约样本与履约样本的样本不平衡问题。实证分析方面,本文采用Logistic回归、朴素贝叶斯和随机森林三种模型分别对个人信贷数据进行了预测,在评价模型训练效果时,综合采用了模型的准确率、精确率、召回率、F1值、AUC值以及ROC曲线这6个指标,分析对比了三个模型的训练效果,得到随机森林在个人信用风险预测中比其他两个模型更有优势。在建立个人信贷风控模型时,本文在特征选择时采用了Boruta算法,最终保留了申请人工作性质、申请的分期付款百分比、现地居住时间、个人资产状况、申请人年龄、账户余额、有否其他贷款分期计划、信贷历史履约状态、住房状况、是否有担保人、账户余额状况持续时间、信贷的目的、贷款金额、个人信誉度以及在职时间共15个特征。然后我们对再次筛选特征后的样本数据集进行预测,对比发现Boruta-随机森林比随机森林的预测效果更佳。最后我们将预测得到的违约概率转换为个人信用评分,建立了个人信贷风控模型。本文采用多个机器学习模型对个人信用进行了评估,创新点如下:1、在将随机森林模型应用到个人信用评估上时,结合了Boruta算法选择有效特征,优化了特征选择的方法。在选择有效特征后,本文采用了 Boruta-随机森林模型对于个人信贷数据集进行了预测,预测结果比未优化之前更加准确。2、在构建个人信贷风控模型时,本文采取了将违约概率转换为信用评分的方法,根据评分的等级决定该贷款人的贷款申请能否通过,以确保模型在实际应用中的可行性。