论文部分内容阅读
P2P网络借贷是一种个人对个人的在线借款方式,相对于传统借贷模式,具有无需抵押、线上申请、放款迅速的特点。我国的P2P平台经历了一段时间的繁荣增长期,迅速成为个人融资的重要渠道之一,但“繁荣发展”的背后面临着很多的问题,使得2016年开始P2P行业频频暴雷。究其原因,一是没有健全的监管制度和法律体系导致不合规平台众多;二是没有完善的信用体系,信息不对称严重;三是很多平台没有合适的风控体系,导致用户违约率居高不下。因此如何提高平台对违约用户的识别能力,对于P2P行业的健康发展具有重要意义。一般来说,违约用户的数量要远小于正常用户的数量,所以网贷数据集是类不均衡的,如果利用传统的算法进行模型训练会产生很多问题,所以本文从不同的角度对传统算法进行了改进。从众多的学习算法中选择了逻辑回归算法、BP神经网络、E-LightGBM算法,并从解决类不均衡问题的角度对算法进行改进。从代价敏感学习的角度,提出了cost-LR算法和cost-BP算法,对逻辑回归和BP神经网络中的交叉熵损失函数加权处理,使得违约样本预测为正常样本要付出更大的代价;从数据层面出发,提出了E-LightGBM算法:利用EasyEnsemble算法的思想对多数类多次欠采样得到多个多数类子集,并与少数类相结合形成多个平衡的数据子集。最后,利用LightGBM算法去训练多个模型,并采用投票法得出最终预测结果。我们将提出的三种算法在Lending Club平台和拍拍贷平台进行实证分析,使用filter和随机森林特征重要性相结合的方式进行特征选择,使用F2分数、Gmean、Auc作为评价模型性能的指标。研究结果表明,我们所提出的三种改进算法都在一定程度上解决了类不平衡问题,其中E-LightGBM算法的性能最优。通过对中美平台的数据集的进一步探索发现,LC平台的数据集包含更完善的历史信用数据以及信用指标等,而拍拍贷则是利用用户的基本信息、社交网络信息、各种验证信息等。相关实验结果表明,三种算法在LC上的数据集的预测性能都要优于拍拍贷,因此为了促进P2P行业的健康发展,建议将P2P网贷平台接入央行信贷系统,并完善信用体系和数据的流通共享,为P2P行业的健康发展提供更有力的保障。