基于机器学习的信贷违约预测研究

来源 :重庆工商大学 | 被引量 : 0次 | 上传用户:a7281423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的蓬勃发展,传统金融行业开始向着金融互联网化和互联网金融快速转型。网络信贷凭借门槛低、快速便捷、高收益等特点,借助互联网平台存在的优势,迅速成长。然而高收益的背后也存在着高风险,由于其降低了借贷的门槛衍生出一系列包括非法集资、携款潜逃、电信诈骗等问题。如何防范用户欺诈和控制信用风险是近几年一直亟待解决的问题。为此,引入机器学习算法来优化信贷风控系统,促进信贷业务市场健康发展,不失为一条有效途径。信贷风控建模时,主要有两个难点:一是真实业务数据集中往往呈现数据分布极不均衡的现象(即违约客户占总体的极少数,违约样本信息极度缺乏),导致模型预测困难。二是受限于信贷风控系统对模型可解释性的要求(即构建风控模型时,需要知道每一个特征x对预测结果y造成了怎样的影响,以便业务部门开展工作,如芝麻信用分中“年收入”增长一万元,评分增加10分),线性模型逻辑回归(Logistics regression,LR)凭借在可解释性上的绝对优势成为信贷违约预测中的最主要选择。但LR模型对非线性特征学习能力有限,致使模型预测精度不高。因此,本文基于样本不均衡优化方法和机器学习算法,研究信贷违约预测问题,主要包括以下三个阶段的研究:第一阶段,梳理相关文献及研究,分析信贷违约预测模型的需求性和必要性。第二阶段,从数据和模型两个层面,解构违约预测模型的优化思路,确定优化过程中的关键因素。第三阶段,实证分析,以Lending Club平台2019年四个季度的数据为对象(共518107条信贷记录,150个特征变量),在分类算法和采样算法两个维度展开对比分析,验证样本不均衡优化方法和SMOTETomek-LightGBM-LR模型的有效性。本文创新主要体现在数据和模型两个方面,在数据层面,根据信贷数据集样本分布极不均衡的特质,提出了样本不均衡的优化方法。首先根据数据集的样本分布,搜索采样算法的最佳采样比例;再使用采样算法,根据最佳采样比例扩充少数类样本;最后通过代价敏感学习,调整样本权重,增加少数类样本的错分代价。在模型层面,根据LR模型对非线性特征学习能力有限的特点,设计SMOTETomek-LightGBM-LR的信贷违约预测模型。先采用基于SMOTETomek算法的样本不均衡优化方法,提升数据质量;再采用LightGBM算法进行特征衍生,将其在根节点到叶子节点的路径作为新特征,与原始特征合并,作为LR模型的输入,提升LR模型对非线性特征的学习能力。最后通过AUC值、KS值及召回率评价不同分类模型的预测精度。实验结果表明:(1)本文提出的样本不均衡优化方法,对比优化前预测结果在AUC值、KS值及召回率三项指标上均有一定提升,验证了优化成果。(2)本文设计的SMOTETomek-LightGBM-LR信贷违约预测模型,对比其他模型预测结果在AUC值、KS值及召回率三项指标上均为最高,验证了本文模型的有效性。基于现实意义的角度,本文研究主要有两点贡献:一是一定程度上改善了实际信贷审批业务中数据分布极不均衡的困境,为网贷平台等金融机构完善风控系统提供了新思路;二是采用模型融合的方式,提高信贷违约预测精度,为信贷行业降低违约率,提升资金利用效率,提供了新方法。据此对网贷行业未来的发展提出三点建议:第一,整合外部征信数据,拓宽信用数据来源渠道,构建与时俱进的征信体系;第二,改变利率设定机制,适当调低低信用等级用户的利率,降低违约风险;第三,保障投资者权益,推广机器学习算法的运用(如模型融合等),以此完善风控系统建设,促进行业可持续发展。
其他文献
在创新驱动战略背景下,创新已成为企业可持续发展的不竭动力,更是企业发展竞争力、保持领先优势的重要源泉。员工创新作为企业创新的核心和关键,对企业发展起着举足轻重的作用。因此,如何促进员工创新行为是企业应高度重视的问题。员工创新行为受到多方面因素的影响,除员工个体特征以外,组织文化也是重要影响因素。差错管理文化是组织文化的主要内容之一,体现出组织对待工作中差错的态度。企业积极看待差错会给员工一种安全的
学位
报纸
随着大数据时代的到来,怎样在大量呈现指数级别上升的数据中,发掘出有用信息并且进行运用越来越成为了研究重点。将复杂的文本数据采用图像来描述,就可以使人们更精确更快捷地掌握关联信息,也更容易对信息加以理解,知识图谱因此应运而生。随着智慧制造业的蓬勃发展,知识图谱在制造业应用领域也备受关注。因此,本文将制造业应用领域内的数控(Computerized Numerical Control,CNC)机床故障
学位
围绕庖丁解牛这则寓言故事,庄子阐发了一种简约治理观。他认为施治者在政治治理中会遇到治理的内在张力问题,即作为治理主体的施治者与作为治理客体的民众之间出现了对抗性关系。这种张力的出现主要是由治理者缺乏充分的施治技艺、采用的治理方式不当以及忽视了民众的利益诉求等因素所导致的。而消解这种治理张力则在于施政者在掌握大道运行内在规律的基础上施展政治技艺,构建有助于涵养民众自然本性的治理模式以及转换主客视角,
期刊
世界旅游组织(UNWTO)看好中国客源市场和旅游目的地。作为一个重要的旅游目的地,我国森林公园数量发展速度很快,而对森林公园游憩服务质量的研究并未得到应有的重视。本文在总结借鉴国内外已有研究成果和分析森林公园游憩相关特质的基础上,尝试运用定性和定量研究相结合的方法,从游客感知视角构建了包括自然禀赋服务、管理环境服务、设施条件服务、游憩活动服务、信息教育服务等5个主要维度以及24个指标的国家森林公园
学位
目的:本课题通过随机对照的研究方法,观察通督活血汤对老年脊髓型颈椎病术后残余麻木的疗效,为临床老年脊髓型颈椎病术后残余麻木症状的治疗进行优化,从而提供循证医学证据,为术后残余麻木提供更有效的治疗方案。方法:选择2020年12月至2021年11月就诊于福州市第二医院的病患,因确诊脊髓型颈椎病在福州市第二医院脊柱外科行“颈椎前路椎间盘切除+cage植骨融合+钢板内固定术”,纳入术后仍存在上肢麻木60例
学位
随着能源需求的日益增加,新能源成为能源体系中的重要组成部分,通过多端口变换器不仅能够灵活地利用多种不同的分布式能源发电,还能减小设备体积、降低系统损耗、增加功率密度,因此应用于微电网的多端口变换器逐渐成为了国内外的研究热点。目前,针对含混合储能的多端口变换器,在如何减小系统体积、如何实现有效控制混合储能和光伏输入,如何提升系统性能等方面还需深入研究,人们还在不断提出新方法和新策略。为此,本文展开了
学位
褐煤直接抽提腐殖酸过程缓慢、产率不高,通过加入氧化反应后可显著提高产物抽提产率。硝酸氧化不仅可以提高腐殖酸产率,还可以提高腐殖酸中活性官能团数量,是一种比较有前途为了促进褐煤非燃料化利用的方法,探索直接抽提与氧化抽提对褐煤腐殖酸结构的影响。结果表明,褐煤腐殖酸均含有羟基、甲基、亚甲基、羰基、羧基等,但氧化褐煤腐殖酸水分、灰分更低,挥发分更高。
期刊
酱香大曲是酱香型白酒的酿造用酒曲,其生产用量占酿酒原料比例高达50%,是影响酱香型白酒品质的最重要因素。对于酱香大曲制曲而言,小麦破碎度对整个制曲工艺条件具有显著影响,以往的相关研究仅把小麦破碎度作为众多影响因子之一进行描述性研究,未能揭示其作为酱香大曲高温堆积工艺控制和调节的本质特性及规律。因此,本研究通过对酱香大曲堆积制曲生产过程的监控、成曲细菌16S rDNA(V3+V4区)和真菌ITS区测
学位
褐煤提取腐殖酸后会产生大量的残渣,以褐煤残渣对含Cr(Ⅵ)废水进行处理可以实现褐煤残渣的利用并处理含Cr(Ⅵ)废水的目的。采用单因素试验和响应面法对试验条件进行优化;在不同温度下,向50 mL质量浓度为50 mg/L的含Cr(Ⅵ)废水中投加0.1 g褐煤残渣进行试验,对试验结果进行等温吸附模型的拟合,探究提取腐殖酸后的褐煤残渣对Cr(Ⅵ)的吸附类型。结果表明,褐煤残渣在低浓度、低pH的情况下吸附效
期刊