基于重采样修正方法的贷款违约预测比较研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:lkm6839257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国社会经济的高速发展与居民超前消费观念的形成,借贷成为个体和企业处理自身经济问题的一个重要途径,国家也通过大力支持信贷产业和其他相关金融机构的发展来刺激消费者消费。然而,由于平台自身监管体系的的滞后性和贷款制度的不完善,用户的违约行为将引起平台坏账率增高,在大多数场景下,信贷违约数据都存在不平衡的特性,如何有效利用数据信息,对借款人的潜在违约风险进行有效评估和识别,在发放贷款前测算借款人违约概率,是现代金融机构风险治理的基础和重要手段,这同样对信贷产业的健康发展尤为重要。本文深入探索贷款违约场景下非平衡数据的分类预测问题,利用阿里云天池提供的某信贷平台2018年1月至2018年12月的贷款违约数据,比较基于不同重采样方法修正后的数据集对不同分类模型预测性能的改善程度,主要步骤如下:首先,介绍非平衡数据集的定义、特点以及分类过程中可能面临的难点,分别阐述Tomek Links、OSS和Near Miss三种欠采样处理方法和SMOTE、Borderline-SMOTE、ADASYN三种过采样处理方法的算法原理。其次,介绍数据集的来源与指标含义,开展包括无关变量、缺失值、字符串信息提取、分类变量编码和数据标准化等数据预处理,然后对预处理后的数据集进行基于LightGBM的特征选择。在对数据集进行预处理和特征选择处理后,将其分为训练集与测试集,对原始训练集进行基于六种重采样方法的修正处理。然后,对修正后的数据集依次建立Logistic、随机森林、BP神经网络三种单一分类模型和Ada Boost、XGBoost、LightGBM三种集成分类模型,并进行参数调优,分析同一分类模型与不同重采样方法的组合效果。再依据AUC和F2值这两种评价指标对不同模型组合的预测效果进行对比分析,主要分析同一类修正状态下不同分类模型预测结果的差异性。最后,通过结合欠采样与过采样的方法,得到效果最好的最优组合方法Tomek Links+Borderline-SMOTE+LightGBM,并通过SHAP摘要图对其结果进行特征重要性解释。本文可以得出以下四个结论:第一,过采样对分类模型预测性能的改善更加显著,而欠采样方法的改善效果与修正后的正负样本比例有关。第二,对于非平衡原始数据集,集成模型的分类预测性能整体优于单一模型;对于重采样修正后的数据集,单一模型中的BP神经网络与集成模型中的LightGBM模型表现相对最好。第三,欠采样与过采样的结合具备一定的优势。第四,贷款利率、贷款发放月份、贷款等级、贷款金额、客户年收入和客户名下房屋所有权状况等是预测客户是否会发生贷款违约行为的关键指标。
其他文献
汽车现在是生活中必不可少的交通工具,可以说汽车已经深入到生活中的每一个角落,并推动着社会经济的发展。然而由于能源的日益损耗及对大自然的日益污染,地球面临的挑战与日俱增,截至2020年6月,我国的汽车保有量已达到2.7亿辆,给生态环境带来了巨大压力。而近几年低碳环保的新能源汽车正在慢慢的改变这个时代,国家的提倡与支持,各大小企业的节能减排要求,都在促进新能源汽车的飞快发展。一般情况下,通过传统的车辆
学位
空气是人们赖以生存和发展的不可缺少的环境要素之一,清洁干净的大气环境有益于人们的身体健康。治理空气污染,让蓝天白云常驻,是群众所盼、民生所系。城市是空气污染的重灾区,也是空气治理工作中的重难点,“十四五”规划将城市空气质量列为经济社会发展约束性指标,影响着整个城市的综合竞争力,足以体现城市空气质量的重要性。如今大气污染防治进入深水区,制定措施更要保证科学化、精准化,降低治理成本,提升治理质量。因此
学位
伴随着互联网领域技术不断的进步革新,各种互联网应用出现在人们的生活中,并逐渐变得不可缺少。而互联网广告依托互联网应用这个载体也就此诞生。能否精准地了解用户喜好并预测互联网广告的点击率成为了当前研究的热点之一。广告点击率通常是预测用户点击某条广告的概率。广告技术中最重要的算法之一就是通过对广告点击率的预测进而找出用户最有可能点击的那条广告。广告点击率关系着广告的排序以及相应的点击付费等方面内容,因此
学位
近年来随着各个城市基础设施的不断完善,地铁的建设和完善一直保持着增长的趋势并且地铁覆盖整个城市的各个地方。地铁周围新起的居民区、工业区、娱乐设施等更方便城市居民的出行,人们也可以通过搭乘地铁达到享受城市的便捷服务的目的。除此之外,地铁本身的准时性、便利性和安全性,使得地铁逐渐成为人们交通出行首选的工具。但地铁本身空间比较狭小,若遇上紧急情况很有可能因为客流量过于庞大而不好管理,严重的可能会导致交通
学位
2019年末新型冠状病毒的出现给人们的生命财产带来极大影响,在新冠疫情长期存在的背景下,新冠病毒疫苗的研制和上市成为战胜疫情的关键。只有全民接种疫苗形成群体免疫,才能有效抑制新冠病毒传播。在新冠病毒疫苗研制和接种过程中,新冠病毒疫苗的未知性,新冠疫情爆发的反复性,接种周期的长期性以及社交媒体传播信息的快速性,使得新冠病毒疫苗舆情变得更加复杂。新冠病毒疫苗作为普惠民众的公共卫生产品,需要政府及时干预
学位
国家科技创新能力的提高,离不开高校、科研院所与企业的投入和科研人员的辛苦付出,然而更需要合理的、积极的科技创新政策引导。因此,系统地梳理近十年我国科技创新政策的主题演化过程,运用文本挖掘、深度学习等大数据技术分析、评价现有的科技创新政策,提出改进建议。这是我们目前亟需完成的任务。把“科技创新”作为关键词在中国法律检索系统与中国政府网进行检索。对筛选后的政策分别按照时期与年份分类汇总。研究期内,我国
学位
2020年心冠肺炎疫情爆发之时,以在线直播互动式教学为特点的网课迅速普及。网课形式下会出现大量的交互记录,这些信息是在校上课过程中所无法存储的,这些数据也会带来一定的价值。提升教学质量是教育的一个重要目标,但是如何提升确是一个难题。老师和学生之间的交互会带来更好的教学质量,因此本文选择中国慕课平台上数学、计算机、外语三类课程的数据,重点挖掘学生对当前网课的一些负面评价的核心观点,并对不同类别课程的
学位
中小企业是推动我国经济发展的根本所在,同时也是提高我国就业质量和科技创新水平的重要支柱。然而长期以来,因为市场信息的不对称、中小企业自我运营管理状况和宏观经济制度环境变化等多种原因,中国中小企业普遍存在着融资过难、融资效益低下等困难,这些困难也是中小企业发展与经济社会可持续发展的主要障碍。因此探究解决中小企业融资难、贷款难并最大幅度地提高融资效率是十分有必要的,具有极大的理论意义和实际价值。数字普
学位
随着我国经济社会发展,居民收入增加,生活水平提升的同时,全国商品房价格也一直处于增长状态,并带动了住房租赁市场租金的增长。尤其是在一线和新一线城市,住房租赁市场规模增长迅速,但也存在很多问题亟待解决,如供求关系失衡导致住房租赁供不应求、租客和房东之间存在信息不对称导致租客在住房租金上蒙受损失、大量存在的房产中介使租房过程更加的不透明。为解决存在的问题,建立合理的住房租赁租金价格标准是关键,当下机器
学位
随着技术的成熟以及政策的倾斜,新能源汽车逐步走进大众的视野,我国新能源汽车市场销量从2013年的1.8万辆迅速增长至2021年的352.1万辆。在购买新能源汽车前,消费者都会在网上浏览新能源汽车的相关评论,了解不同新能源汽车的优劣,由此决定自己想要购买的车型。同时,挖掘并整理在线评论背后的信息对推动新能源汽车市场健康发展有着重要意义,新能源汽车厂家可以从这些评论数据中得到用户对具体车型的相关看法,
学位