论文部分内容阅读
随着互联网的飞速发展,传统的金融业受到冲击,这样的大环境促使了P2P网络借贷平台的诞生,用户无需通过中介机构来进行借贷,直接通过互联网实现个人对个人的实行借贷行为。P2P网络借贷平台面向对象比较广泛,要求不高,操作便捷,越来越多的人选择在P2P平台进行借贷,但是随之而来的问题也逐渐开始显现。由于信息的不对称,P2P网络借贷平台很难全面掌握用户的资料,信用评估困难重重,借贷门槛低、客户资料不全面、贷款金额少、违约情况多等现象加大了进行信用评估的难度,由于借款客户每天的交易数据量巨大,传统的信用评估方式已经不适用,建立一个更高效、更精准、更客观、更低成本的信用评估系统成为难题。本文以2019年上半年Lending Club的用户数据为研究样本,以违约客户识别算法为研究对象,研究内容主要分为五个部分,第一,交代论文的研究背景以及研究的意义,总结国内外学者在P2P借贷平台违约影响因素和违约预测模型上的研究现状,介绍论文的研究框架;第二,介绍P2P网络借贷相关研究,总结P2P网络借贷平台在中国经历的各个阶段和运营模式,归纳了P2P网络借贷的主要风险,简述分类问题及集成学习不同结合策略,并详细介绍XGBoost算法、随机森林算法、投票分类算法和算法评价指标;第三,对数据进行统计分析和数据预处理;第四,运用XGBoost、随机森林、投票分类算法进行实证分析,并与其他算法进行比较、打分;第五,总结研究成果,提出相关建议。研究结果表明:在违约影响因素方面,职业、年收入、工作年限、贷款金额、贷款目的、住房拥有状态等特征变量均对客户违约风险有一定的影响,“过去12个月开设的循环贸易数目”、“贷款利率”、“抵押账户数”、“当前活跃的交易数量”等经济行为的特征贡献度比较高,在违约客户识别模型中起到非常重要的作用;在违约识别算法方面,F1得分最高的是随机森林算法(0.92955),查全率最高的是K近邻算法(0.96624),查准率最高的是XGBoost算法(0.99157),AUC值最高的是随机森林算法(0.97820)。综合评分最高的是随机森林算法,第二为XGBoost算法,第三则为投票分类算法。集成学习器性能要远远优于个体学习器,但整体运算时间较长,调参有一定难度,成本较高。根据研究成果,提出如下建议:1、完善网贷平台风险控制,科学评估客户违约风险;2、健全客户信用审核机制,加快全社会征信步伐;3、加强P2P行业管理,完善互联网金融的法律规范;4、紧跟国内互联网金融政策,明确发展方向。