论文部分内容阅读
随着互联网金融逐步发展,P2P网络借贷作为一种创新的互联网金融模式在当下变得炙手可热。近年来,凭借着高收益、便捷等理财优势,各类P2P网络借贷平台得到了爆发式增长。然而,我国P2P网络借贷因其较短的发展时间、落后的风险分析技术、以及尚不健全的法律法规体系等使得投资者面临着严重的资金安全隐患问题。信用风险已成为P2P网络借贷行业的首要发展瓶颈,如何为P2P网络借贷者建立一套良好的风险评估模型,显得非常迫切与必要。但是学术界对此还缺少深入的研究,风险评估依然处于传统个人借贷风险评估方法的简单模仿阶段。本文我们选择一种组合分类器模型——随机森林(Random Forest),该算法能够较好的容忍噪声,不容易产生过度拟合,且有着较高的稳定性,相比于传统的单分类器模型,能够更好的处理信贷风险评估问题。文中对随机森林算法的相关理论进行了详细介绍,并在此基础上通过引入代价敏感学习法提出了加权随机森林算法(WRF),进而提高错判代价较高的类别的准确率,增强模型的实用性。在实证阶段,我们首先对数据进行了预处理,主要包括剔除离群值点,补齐缺失值,归一化以及相关性检验;接着,采用五重交叉数据利用RF算法进行特征指标的选择,为实证部分打下了坚实的基础;然后,利用Lending Club开放数据集,以及German、Austria公开银行信贷数据集,建立了以随机森林为基础的个人信用评估模型,并与Logistic回归,KNN,SVM,ANN等传统信用风险评估方法进行对比。通过实验我们知道:不论是P2P信贷数据还是传统银行信贷数据RF模型总体分类效果最佳,这说明RF算法更加适用于构建信用评估模型。最后,我们采用SMOTE算法针对P2P不平衡数据进行了处理,使得分类结果更加具有现实参考意义。