基于集成学习的贷款违约预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:mvcexq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国经济实力和社会生活发生了翻天覆地的变化,人们对于美好生活的消费需求被充分激发,消费方式也逐渐从传统的保守消费转向借贷消费,与此同时,为了扩大内需、刺激消费,国家大力支持发展信贷产业。伴随着人工智能、区块链、大数据等技术的迅速兴起,金融行业也迎来了数字化和信息化转型。新兴科技与传统金融行业相结合推动了互联网金融的迅猛发展,然而互联网金融的出现,不仅改变了贷款业务,也带来了新的风险。目前互联网金融业务面临的情况是订单金额低、订单数目多、借贷期限短、客群资质差异大。面对复杂且变化莫测的信贷风险,传统的风控方法已经不能满足目前的风控需求,在这种情况下,建立一个科学有效的贷款违约预测模型对我国信贷业的健康发展显得尤为重要。本文通过构建基于集成学习算法的贷款违约预测模型,帮助信贷平台识别违约客户,以最大限度地对可能遭遇的信用风险进行规避。采用Data Fountain竞赛平台提供的75万条网络信贷数据作为实验数据,并通过探索性数据分析、数据预处理、变量衍生以及变量选择来提高数据的有效性和模型的性能表现。本文利用随机森林算法对不同采样方式进行对比,最终选择Tomek Links欠采样与KS阈值移动相结合的方式来解决贷款数据不平衡问题。在集成学习的模型选择上,使用随机森林、XGBoost以及Cat Boost这3种集成学习算法分别构建贷款违约预测模型,并对同一模型在KS阈值移动前后的预测效果进行对比,然后根据各模型的AUC值、KS值以及F2值选出最佳模型,最后对该模型利用Permutation Importance和Shap方法进行影响因素分析。经过上述的研究与分析,本文得到以下5个实证结果:一是在贷款数据不平衡问题的处理上,Tomek Links欠采样效果最好,未采样效果其次,SMOTE过采样效果最差,它们的AUC值依次为0.8631、0.8621、0.8608,且在Tomek Links欠采样后,数据依然存在不平衡问题,由此可知使用采样方法可能降低预测效果,也可能效果提升十分有限,并且采样后不能确保可以很好的解决数据不平衡问题;二是经过KS阈值移动后,3个模型的Recall至少提高了28.67%,F2值至少提高了16.50%,即KS阈值移动后的3个模型具有更好的预测效果,它们均极大地提高了金融风控领域较为关心的召回率,同时也在最大程度上保证了精准率;三是3个集成学习模型的预测效果均较好,它们的AUC值均大于0.8680,且模型之间的预测差距较小,AUC值最大差距仅为0.43%;四是Cat Boost模型是本文进行贷款违约预测的最佳模型,在3个模型中Cat Boost模型的AUC值、KS值、F2值最大,且其KS值与AUC值的波动最小,由此可知该模型的预测效果和稳定性均强于其他两个模型;五是发现婚姻状态、所在公司类型、贷款等级之子等级、工作类型、提前还款次数这5个变量对于预测贷款是否违约最为重要,同时分析了这些变量与贷款违约的具体影响关系,这对于金融机构在贷款审核时具有参考价值。
其他文献
随着信息技术的快速发展,具有海量、高维、动态、分布式等特征的大规模复杂数据不断涌现,如何从这些复杂的数据中获取高价值的信息显得异常重要。粗糙集作为一种处理不确定性、不精确性知识的重要工具,目前已经广泛应用于模式识别、特征提取、规则提取等领域。然而,传统的粗糙集模型要求数据是完备精确的,对于不完备、动态数据的处理具有一定的局限性。集值信息系统作为单值信息系统的重要扩展类型,是处理不完备、不确定数据的
学位
人工智能与教育的结合对于推动国家发展、建设创新型国家以及构建包含有交互式学习与智能学习的新型教育体系等方面起着至关重要的作用。而人工智能在教育领域的应用主要集中在提供个性化学习方案与改进教育评价模式这两个方面。提供个性化学习方案与改进教育评价模式都需要对学习过程中学生的状态进行监测。众多的学习状态中,认知负荷是否匹配是被广泛研究且极为重要的一组学习状态。监测学习者学习过程的认知负荷是否匹配,便于教
学位
心血管疾病目前已经成为威胁国民身体健康的首要致命疾病,发病人数逐年上升。心电信号是反映心脏活动的一种重要的生理信号,医生通过观察患者的心电图数据来对心血管疾病进行诊断。为了减轻人工检测的工作量,提高医生对心电图诊断的效率和准确率,及时保障病人的生命安全,围绕心电信号自动检测与诊断的研究具有很强的现实意义。本文深入研究了深度学习技术在心电信号检测与诊断的应用,利用双向长短期记忆网络(Bi-LSTM)
学位
<正>湛蓝的天空与赤金的阳光,搭配艳紫的薰衣草让人沉醉其中。但据记者了解,北京地区的气候环境并不适合大面积种植薰衣草,各大庄园的紫色花海也多以蓝花鼠尾草与柳叶马鞭草为主。北京不适合大面积种植薰衣草法国诗人罗曼·罗兰有一句名言:"法国人之所以浪漫,是因为他们有普罗旺斯",而薰衣草说是普罗旺斯的灵魂,一点也不为过。人们对于美好事物的向往古往今来始终如一,早在1963年我国就先后在北京、上海、西安、重庆
期刊
学位
随着智能技术的发展,高维数据日益普遍,如图像、视频、社交网络关系和用户行为数据等,被广泛应用在特征预测、视频分类和推荐系统关系挖掘等各个领域。而传统的机器学习算法需要先对数据进行向量化或矩阵化处理,这通常会破坏高维数据携带的内部结构信息,并常常会带来过拟合的新问题。近年来,将张量形式的数据应用到经典的线性回归模型中引起了广泛关注,一方面,可以尽可能地保留数据的结构信息,达到更优的预测效果,另一方面
学位
随着大数据时代的到来,互联网用户和网络新闻用户数目激增,出现了各类的新闻媒体平台,新闻文本的数量可以说是在爆炸式的增长之中。对于使用新闻客户端的用户来说,每个人都希望快速准确地从平台上找到自己感兴趣的新闻进行阅读,而对新闻媒体平台而言,将众多的新闻文本信息进行有效的分类也是做好新闻媒体平台很关键的一步。由于中文本身的复杂性,中文新闻分类的难度比起英文新闻要高不少,因此研究中文新闻文本分类对于推进新
学位
决策与我们人类社会活动息息相关,它在我们个人人生规划,企业长远发展,以至于国家行政军事等方面都起着至关重要的作用,因此被广泛应用到了各个领域。犹豫心理在现代决策理论与实践的过程中普遍存在,作为一种常见心理现象,犹豫不决往往会延长决策过程,使得决策者无法及时做出合适决策,进一步造成人力物力的浪费。犹豫模糊集理论通过对决策者的犹豫心理进行定量描述,同时处理不确定信息中的犹豫性与模糊性,为克服决策过程中
学位
随着计算机视觉的发展,图像已经成为人类信息传递的重要手段,其中图像质量是图像数据的重要指标,而在雾天等恶劣天气下,常常会出现诸如图像细节丢失、图像色差、图像对比度下降等问题,这些问题会影响成像设备获取到的图像。这些低质量的图像,不仅仅影响肉眼所见的主观感受,更为关键的是,其作为一组低质量数据会降低许多智能系统的效率甚至导致更加严重的后果。如遥感系统、安防监控、无人驾驶等,清晰的、高质量的图像是这些
学位
近年来,卷积神经网络作为人工智能领域的一种主要方案,已应用于机器视觉,如图像识别,图像处理等领域。随着网络功能的逐渐强大以及精度的不断提高,最新的卷积神经网络需要大量的参数和计算量。由于制造成本的增加和基础物理限制的迫近,单靠器件的扩展已经不能提供期望的性能增益,因此需要新的设备和算法。忆阻器的理论概念在2008年与物理设备相结合,一直是非冯·诺伊曼架构领域的研究热点。由于其高密度,高操作速度和低
学位