论文部分内容阅读
近年来,随着信用消费经济模式的发展,人们的交易方式发生了巨大的改变。有数据表明,目前在银行等信用机构中,个人贷款的份额在不断增加,有逐年超越企业贷款的趋势,但是随之而来也会带来大量的信用风险问题。主要原因是中国目前信用评估的发展尚不成熟,银行等相关部门常常会受到欺诈现象带来的恶劣影响,因此为了快速而有效地对个人信用风险进行评估和预测,需要建立合理科学的分析模型。商业银行等机构对客户进行放贷时,对客户的一系列个人信用指标建立相应的指标体系,在已建立的指标体系上建立模型进行预测,最终希望判断出哪一种算法更能准确的预测出结果。随机森林(Random Forest)是一种基于决策树的典型分类算法,该算法的优点就是泛化能力强,不容易造成过拟合问题,同时该算法对缺失值不敏感,且具有较好的容噪能力,因此,相较于传统的单分类器算法,随机森林算法被证明是处理信用评估问题的有效算法。
本文提出了一个基于随机森林算法的个人信用评估模型,主要是从特征选取、数据不平衡、参数优化以及投票机制这四个方面对模型进行优化,以更准确的对个人信用进行分类。具体内容如下:
1、由于信用评估数据集中存在数据冗余与不平衡等问题,在数据处理阶段研究了一个两阶段特征选择算法,该方法主要是在特征选择阶段选择对分类结果影响较大的特征。采用K-Means算法进行类分解,以达到平衡数据的效果。为了减少传统随机森林算法中的两个参数n_estimators、max_features对分类结果的影响,运用遗传算法改进了K-Means算法以及随机森林算法的参数设计,提高了模型的分类性能。
2、引入了精确度加权随机森林模型,改善了随机森林的众数投票机制(将精确度作为每一棵决策树的权重)。选取UCI数据集中的German数据集进行仿真实验,实验结果表明了,随机森林算法相比于其他单一分类算法的效果更好,并且提出的组合优化算法在预测精度上效果更好。
本文提出了一个基于随机森林算法的个人信用评估模型,主要是从特征选取、数据不平衡、参数优化以及投票机制这四个方面对模型进行优化,以更准确的对个人信用进行分类。具体内容如下:
1、由于信用评估数据集中存在数据冗余与不平衡等问题,在数据处理阶段研究了一个两阶段特征选择算法,该方法主要是在特征选择阶段选择对分类结果影响较大的特征。采用K-Means算法进行类分解,以达到平衡数据的效果。为了减少传统随机森林算法中的两个参数n_estimators、max_features对分类结果的影响,运用遗传算法改进了K-Means算法以及随机森林算法的参数设计,提高了模型的分类性能。
2、引入了精确度加权随机森林模型,改善了随机森林的众数投票机制(将精确度作为每一棵决策树的权重)。选取UCI数据集中的German数据集进行仿真实验,实验结果表明了,随机森林算法相比于其他单一分类算法的效果更好,并且提出的组合优化算法在预测精度上效果更好。