论文部分内容阅读
随着互联网金融的快速发展,人们的理财观念和贷款需求也日益变化。一种名为P2P(Peer to Peer)网络借贷的全新互联网金融模式出现并引起市场广泛关注。由于初期国内缺乏相应的监管机构再加上个人征信体系不完善,P2P网贷客户违约事件频频发生,对投资人的权益和平台正常运行造成了不利影响。如何建立科学和相对完备的信用风险评估体系成为一个亟待解决的问题。本文研究了相关的数据挖掘分类技术及方法,并基于此来构建一个P2P贷前信用风险评估系统,为贷款审批人员提供辅助决策。本文的研究内容主要包括以下几个方面:(1)针对传统随机森林算法训练出的树集中存在分类性能不一以及决策树相似性较高的问题,本文提出一种基于决策树约简的改进随机森林算法TRRF(Trees Reduction Random Forest)。实验证明,该算法与传统随机森林算法相比不仅具有更好的分类性能,而且可以降低模型存储带来的资源消耗,提高分类预测效率。(2)针对单机在处理海量数据时受到计算能力和内存空间等限制的问题,本文基于Spark分布式计算框架设计并实现改进算法的并行化。实验证明,该并行算法具有良好的并行性能和可扩展性。(3)在改进算法和Spark分布式计算框架的基础上,本文研究了P2P贷前信用风险评估理论,基于上述改进算法设计并实现了该评估系统。实验表明,该系统具有较好的评估准确性和有效性。