论文部分内容阅读
在互联网金融的驱动下,网络信贷行业日渐兴盛,并且通过将传统金融和互联网融为一体,以其投资收益高、借贷过程迅速、操作方法便捷等优势,促使大批投资者和借款人参与网络信贷。网贷行业虽然发展速度飞快,却存在诸多难以忽视的问题亟待解决。大规模平台跑路、提现困难、停业、转型、倒闭潮等现象,无论是对于借贷双方还是对于网络信贷市场都会产生极其不利的影响。网络信贷行业尽管呈现出强劲的发展势头,却面临诸多风险挑战,例如信用风险、合规风险、技术风险等。其中,信用风险因问题频发尤为突出。因此,通过大数据技术建立更为准确的模型来评估借款人的信用违约风险,对于保护贷款方利益、实现平台安全运营以及行业健康发展意义非凡。由于网络信贷信用风险评估问题涉及的数据量庞大,特征变量复杂且大多呈非线性关系,在不同的数据环境下,运用单一算法会受到不同数据特征的干扰,而不同算法分析数据特征的角度存在差异。因此通过集成多种算法,利用不同算法之间的互补效用,能够极大提升模型的分类效果。现有集成算法中,LightGBM算法是经典的Boosting算法,其分类精度高、运行速度快,能够通过把弱分类器进行组合来达到较好的预测效果。此外,RB-SMOTE方法不仅可以防止过采样容易发生过拟合的问题,而且对于模糊边界的处理以及少数类样本内部分布不均等棘手问题均能有效解决。故本文提出了基于RB-SMOTE的LightGBM算法,能够极大地提高预测违约用户模型的分类效果。本文用于实证分析的数据来源于Lending Club平台上2019年的交易数据,共有518107条观测。首先对用户的个人基本信息以及相关借贷信息进行描述性统计分析,定性分析影响信用违约风险的主要因素。接着运用多种机器学习方法,建立信用风险识别模型。针对数据分布严重不均衡的问题,创新性地采用RB-SMOTE算法进行处理使数据达到均衡状态。随后分别使用随机森林、Adaboost以及LightGBM三种机器学习模型来评估借贷者的信用风险。通过将三种模型进行对比分析,结果表明基于RB-SMOTE的LightGBM模型的预测精度最高,同时时间成本最低,在海量数据处理方面优势凸显。然后,为了证实本文提出的模型具有较强的泛化能力,且能够应用于国内网贷平台,进一步利用国内拍拍贷的相关数据,对比分析中美网贷在监管模式、资金托管模式、风控管理体系、数据共享程度这四个方面的差异,进而通过搭建风险识别模型,得出基于RB-SMOTE的LightGBM模型的风险预警效果均优于其他模型,验证了本文的结论,并补充了前文的研究内容。本文通过构建基于RB-SMOTE的LightGBM模型并将其应用至网贷行业的信用风险评估中,得到以下结论。第一,相较于随机森林模型和AdaBoost这两种集成学习算法,基于RB-SMOTE的LightGBM模型优化效果显著,并且对于中美网贷平台均适用。第二,具体分析模型运行结果,基于RB-SMOTE的LightGBM算法能够显著提升分类器的AUC值、F1值以及K-S值等各项指标。以Lending Club平台为例,运用本文模型使得AUC值从0.814提升至0.954,F1值从0.709提升至0.822,K-S值从0.755上升至0.841,优化效果显著。第三,特征筛选方法有别于传统方法,具有一定的启发意义。在进行特征筛选以实现降维目的的过程中,本文巧妙运用LightGBM算法筛选出重要性相对较高的变量,并没有直接选用传统风控模型认定的重要变量。该方法运行速度快且可解释性强,满足大数据风控业务的要求。第四,我国网贷平台数据披露不足。通过对比基于国内外数据的实证分析结果,发现运用国内平台的数据进行建模时,其风险识别效果远不及运用国外数据建模的效果,这主要是由两国网贷平台数据披露程度差异较大所致。最后,本文基于数据风控的角度,对我国网贷行业发展及监管提出以下四点建议:第一,推行数据共享机制,打造合作共赢新局面;第二,数据开源,集思广益,打造更为精准有效的风控体系;第三,扩充样本数据维度,构建用户画像以提供精准服务;第四,完善数据披露的相关法律法规,遏制信息泄露。