基于机器学习的P2P个人网贷信用评估方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zsj520yxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用某信贷公司的真实数据,该数据一共有31个变量,其中客户类型是因变量,其余变量是自变量,对该数据建立了Logistic回归模型、随机森林模型、支持向量机模型,分析对比了这三个模型识别坏客户的能力,并基于Logistic回归模型对SMOTE算法进行了改进,最后通过10折交叉验证的方法对模型进行验证。由于本文采用的数据中好客户有6664个,坏客户有330个,数据是不平衡数据,因此本文引入专门处理不平衡数据的算法——SMOTE算法,对原始数据中的少数类样本(坏客户)进行欠采样,多数类样本(好客户)进行过采样得到新数据,在原始数据集和新数据集两个数据集上分别分析对比上述三个模型的识别坏客户的能力。10折交叉验证的结果表明:(1)在原始数据集上,随机森林模型的误差率最小为0.042,随机森林和支持向量机的真负率最大,都达到了1.000,Logistic回归的真正率最大为0.56,这表明在识别坏客户方面,Logistic回归比其他两个模型有更好的识别能力;(2)在新数据集上,随机森林在误差率、真正率、真负率这三个指标上都达到最优,分别是0.057、0.870、0.987。这表明经过SMOTE算法处理后随机森林模型的能力是最好的,且与原始数据集相比,除了误差率增大了0.015外,其他两个指标都有所提高,特别是真正率提高了0.762,这表明经过SMOTE算法处理后,随机森林模型识别坏客户的能力得到了很大的提高。本文最后针对SMOTE算法的不足进行改进,提出了基于Logistic回归的SMOTE算法,即用Logistic回归模型得到的每个样本为坏客户的概率对SMOTE算法的插值算法进行加权,用得到的改进后的数据训练随机森林模型,得到改进后的SMOTE算法(1)在误差率方面,比原始的SMOTE算法降低了0.013,比原始数据提高了0.002;(2)在真负率方面,比原始的SMOTE算法和原始数据都有所降低,但幅度不大,分别为0.013、0.02;(3)在真正率方面,比比原始的SMOTE算法和原始数据都有所增加,分别提高了0.804,0.047。可见改进后的SMOTE算法以牺牲较小的误差率和真负率换来真正率的大幅提升,这对于以识别风险为主(坏客户)的信贷业务来说大有裨益。
其他文献
方差是系统容量的一个重要参数,可以用来估计通信系统的中断容量。该文研究了正交频分复用(OFDM)系统在莱斯衰落信道下的容量方差。首先建立了多径莱斯信道的模型并且定义了多
连续相位调制(CPM)由于其相位连续和恒包络,可以使用低成本的非线性功率放大器,且CPM信号有近于1的峰均功率比,在放大器处产生的能量消耗小,从而解决协同系统中移动终端的成本
美国政府为了其政治和经济利益 ,最近宣布停止执行GPS的SA政策。本文将分析其关闭SA的背景及关闭SA后的GPS性能状况。
StrohmerT与Beaver S于2003年提出了适用于时频散射信道的网格正交频分复用(LOFDM,Lattice OrthogonalFrequency Division Multiplexing)系统,与传统OFDM系统相比该系统具有更
如何提高无线电资源的利用率已经成为国内外研究的一个热点,而认知无线电技术为解决这个问题提供了一个新思路。非连续正交频分复用(NC-OFDM)技术灵活的选频方案为实现认知无线
为调查和分析猪肠道菌的氨基糖苷类药物耐药机制,用PCR及序列分析方法检测鉴定2个猪肠道菌中4种16S rRNA甲基化酶耐药基因rmtAr、mtBr、mtC和armA和10种氨基糖苷钝化酶基因,
淮安是中国历史文化名城,素有“淮上明珠”的美誉。它既是一代伟人周恩来的故乡,又是中国共产党领导的新四军在苏中、苏北、淮南、淮北四大解放区创建的唯一民主联合政府苏皖边
报纸
《老人与海》(The Old Man and the Sea)是美国著名小说家厄内斯特·海明威(Ernest Hemingway,1 8 9 9-1 9 6 1)于1 9 5 2年发表的一部力作。它被介绍到中国有五十多年的历程
无线定位技术中,由于环境的限制,导致单一信号覆盖面受限,而且不连续,因此很难获得较高的定位精度和较广的覆盖面。同时,传统的非线性滤波计算复杂度太高,严重影响定位的实时