论文部分内容阅读
本文采用某信贷公司的真实数据,该数据一共有31个变量,其中客户类型是因变量,其余变量是自变量,对该数据建立了Logistic回归模型、随机森林模型、支持向量机模型,分析对比了这三个模型识别坏客户的能力,并基于Logistic回归模型对SMOTE算法进行了改进,最后通过10折交叉验证的方法对模型进行验证。由于本文采用的数据中好客户有6664个,坏客户有330个,数据是不平衡数据,因此本文引入专门处理不平衡数据的算法——SMOTE算法,对原始数据中的少数类样本(坏客户)进行欠采样,多数类样本(好客户)进行过采样得到新数据,在原始数据集和新数据集两个数据集上分别分析对比上述三个模型的识别坏客户的能力。10折交叉验证的结果表明:(1)在原始数据集上,随机森林模型的误差率最小为0.042,随机森林和支持向量机的真负率最大,都达到了1.000,Logistic回归的真正率最大为0.56,这表明在识别坏客户方面,Logistic回归比其他两个模型有更好的识别能力;(2)在新数据集上,随机森林在误差率、真正率、真负率这三个指标上都达到最优,分别是0.057、0.870、0.987。这表明经过SMOTE算法处理后随机森林模型的能力是最好的,且与原始数据集相比,除了误差率增大了0.015外,其他两个指标都有所提高,特别是真正率提高了0.762,这表明经过SMOTE算法处理后,随机森林模型识别坏客户的能力得到了很大的提高。本文最后针对SMOTE算法的不足进行改进,提出了基于Logistic回归的SMOTE算法,即用Logistic回归模型得到的每个样本为坏客户的概率对SMOTE算法的插值算法进行加权,用得到的改进后的数据训练随机森林模型,得到改进后的SMOTE算法(1)在误差率方面,比原始的SMOTE算法降低了0.013,比原始数据提高了0.002;(2)在真负率方面,比原始的SMOTE算法和原始数据都有所降低,但幅度不大,分别为0.013、0.02;(3)在真正率方面,比比原始的SMOTE算法和原始数据都有所增加,分别提高了0.804,0.047。可见改进后的SMOTE算法以牺牲较小的误差率和真负率换来真正率的大幅提升,这对于以识别风险为主(坏客户)的信贷业务来说大有裨益。