论文部分内容阅读
近几年来,国家信贷政策的陆续出台以及受到西方文化一定程度的影响,人们的消费观念逐步转变,随之而来的是我国个人消费信贷在规模上越来越大,在范围上越来越广,包括个人住房贷款、个人日用消费品贷款、3C产品贷款、个人旅游贷款等业务都呈现急速增长态势。尤其是互联网金融的兴起,更是将信用消费推向新的高度。然而,我国个人信用体制不健全、商业银行等信贷机构消费贷款风险管理制度较落后,这些都导致个人消费信贷业务在发展向好的同时却出现了不少问题,增加了商业银行等机构的信用风险。在这样的背景下,研究如何制定一个科学合理的个人信用评估指标体系以及搭建可靠的个人信用评估模型,对于我国个人信贷业务更加良性的发展便具有非常重要的现实意义。随机森林是一种优秀的数据挖掘方法,其预测准确率高、可以处理高维数据、不容易过拟合、训练速度快等优点使其在很多领域都有广泛的应用,包括文本分析、图像处理、基因组学数据分析、客户流失预测等等。可以预见随机森林的这些优点使其同样适合应用在个人信用评估中。本文以个人信用评估作为研究对象,首先对其进行文献综述,并综合各家对于个人信用评估指标体系的观点总结出个人信用指标体系构建原则进而据此对个人信用评估指标进行分类,包括个人指标、经济指标、信用指标这三个大类指标;其次,从定义、算法、理论基础等方面介绍了随机森林,总结其优点及相关应用,为之后的模型构建做好理论铺垫;然后对信贷数据集German Credit Dataset经过数据预处理与数据集划分后,建立基于随机森林的个人信用评估模型,通过调整参数ntree、mtry进一步优化模型,并引入ROC曲线对模型进行评估;最后,从准确率与稳定性的角度对随机森林、Logistic回归与支持向量机三个模型进行对比,结果显示,在多次数据验证的情况下,无论是准确率还是稳定性,随机森林相比另外两种模型都略胜一筹,这肯定了随机森林在个人信用评估中的适用性,同时通过OOB数据对特征重要性进行评价,进而给银行信贷管理工作提出更有针对性的意见。