论文部分内容阅读
由于高新科技的蓬勃发展,当今世界成为了以信息化、智能化、网络化为核心特征和竞争力的移动互联网社会,P2P这一全新的网络借贷模式应运而生。近年来,我国经济发展迅速,人均收入明显提高,这就导致国人从以前的不敢对外借贷逐渐转变为善于使用社会资源来进行个人的资金融通。因此,具有高回报和借款便捷等优势的网络信贷平台在当下变得显赫一时,各种消费贷款包括周转贷、购房买车贷、出国助学贷、创业服务贷等形式接连得到发展。但是,由于我国网络贷款发展时间不长、个人信用数据信息尚不完备、风险分析技术落后以及相关法规法律还不健全的问题,使得个人信用风险评价体系还不能满足各信贷机构的需求,投资者面临着严峻的资金安全问题。如何建立一种优良的网贷风险控制模型,是目前我国信贷行业迫在眉睫的大事。本学位论文借助机器学习中一个常见的分类算法——随机森林(Random Forest,RF)研究信用风险评价问题。该算法综合Bagging方法和决策树(Decision Tree)的共同优点,能够增强分类的泛化性能,且有着较高的稳定性,不容易产生过度拟合,与其他单一的分类算法相比较,更加适合解决信用风险评价问题。同时,在RF算法的基础上引入了加权随机森林模型(Weighted Random Forest,WRF),考虑了P2P行业中错误预测逾期分类损失较大的真实情况,提高了模型的实际使用价值。论文首先对原始数据进行了预处理,其主要工作为剔除离群点,补齐缺失值,舍去无效特征,数据规范化及变量相关性检验。然后,结合五重交叉验证和RF算法重新选取特征变量。实证阶段,基于拍拍贷已开放的数据集建立了随机森林信用风险评估模型,并与SVM、ANN、KNN和Logistic回归等传统单一评估方法进行对比。实证结果表明:随机森林系列模型总体分类效果最好,对比其他分类模型,RF算法更加适合建立P2P网贷风险评估模型。另外,论文利用SMOTE过采样方法解决了实例数据非平衡分布问题,提升了少数类样本的预测精确度,进一步增强了最终模型结果的实用性。