论文部分内容阅读
当前人工神经网络(Artificial Neural Network, ANN)的研究正处于新一轮的再认识中,除了改进算法外,对基础理论和工作机理的深入解释均有待突破。在对神经网络分类方法的研究探讨基础上,本文侧重讨论了一种新的ANN分类方法——支持向量机(Support Vector Machine,SVM),并将其应用于银行个人信用评估领域中,建立了较准确的分类预测模型。支持向量机是由Vapnik[1]于1995年提出的针对分类和回归问题的统计学习理论,是在高维特征空间使用线性函数假设空间的学习系统。近年来,其理论研究和算法实现方面都取得了突破性进展,开始成为克服维数灾难和过学习等传统困难的有力手段。由于SVM方法具有许多引人注目的优点和有前途的实验性能,越来越受重视。该技术已成为机器学习研究领域中的热点,如人脸识别、手写体数字识别和网页分类等,并取得了理想效果。随着我国商业银行消费信贷业务的展开,个人信用得到了空前的重视。因此个人信用评估具有广泛的应用前景,国内外学者对此做了大量的研究工作,提出了很多预处理和模式识别的算法,大大提高了预测精度。但到目前为止,个人信用评估预测精度还有待提高,样本混叠、核函数核参数选择等问题尚有待解决。为了提高个人信用评估的精度,本文将改进的支持向量机应用于个人信用评估,开发了MULTIEDIT-SVM-KNN软件系统。系统在总结前人工作的基础上,重点研究影响SVM分类法性能的各种因子。把这一选择最佳因子的方法流程化,验证了改进的支持向量机在个人信用评估中的有效性。此外,本文在评估过程中提出了先用重复剪辑近邻法( MULTIEDIT )修剪样本,然后用SVM-KNN分类器分类的方法,期望该方法能对提高基于支持向量机的个人信用评估精度起到推动作用。本文主要工作体现在以下方面:⑴对神经网络分类方法进行分析比较。着重对BP算法、RBF网络、SVM三种神经网络方法进行了比较分析,为个人信用评估选择适用的分类方法。最终本文侧重选择SVM方法。⑵对训练算法进行比较分析。对三种主流训练算法:Chunking算法,Osuna算法和SMO算法,在速度、精度和内存节省等方面进行对比。相比之下,SMO算法速度较快,精度较高,比较节省内存,且适合大规模问题的求解。因此,本文选择该算法作为SVM的训练算法。⑶针对国内商业银行个人信用数据库数据特点,讨论了个人信用评估过程中的数据准备问题,提出引用主成分分析方法优化个人信用指标。⑷提出了MULTIEDIT-SVM-KNN方法,优化SVM分类模型。在对个人信用评估数据分类过程中,发现两类训练样本点集常混叠较严重,使得支持向量分类机的分类面由于过分复杂反而降低了推广能力、样本点和最优分类超平面的距离很近时,不能很好的分类等实际问题,提出一种首先使用重复剪辑近邻法对训练集修剪,然后在分类阶段计算待分类样本点和最优分类超平面的距离,用SVM-KNN分类器分类的MULTIEDIT-SVM-KNN方法,从而优化了支持向量机分类模型。⑸验证MULTIEDIT-SVM-KNN方法用于个人信用评估的有效性。鉴于SVM的优点,将其应用于个人信用评估来提高预测精度,并开发了MULTIEDIT-SVM-KNN软件系统。对具体的信用数据库数据进行数据预处理、指标优化、格式转换、归一化、修剪样本集、利用网格搜索和交互检验功能实现最佳核函数与核参数的选择,最后将各方面选出的最优因子用于训练,使用SVM-KNN方法分类,完成预测。将程序结果与使用其他技术对同一数据库数据的预测结果进行比较,验证了MULTIEDIT-SVM-KNN分类方法用于个人信用评估的有效性。期望本文方法能对提高基于支持向量机的个人信用评估精度起到推动作用。