论文部分内容阅读
在本学位论文中,我们主要考虑决策树C4.5算法在信用风险控制方面的作用,并且为了减少预测误差,运用二项分布置信区间估计的方法改进了其悲观错误修剪算法。为此,我们先简要介绍了信用风险及其常有用的控制方法;然后阐述了决策树的内容,并指出其在控制信用风险中的应用;从理论上介绍决策树C4.5算法模型,包括其生成的信息熵、信息增益理论,修剪时所用的悲观错误修剪法及运用贝叶斯原理及二项分布区间估计原理改进后的悲观错误修剪算法等;最后用恒丰银行制造业及房地产业数据运用Matlab软件编程实现算法,建立模型,以实例验证决策树算法在信用风险控制上的应用及其显著作用。由实例应用可得,决策树模型对信用风险的识别能力较强从而能够较好的控制信用风险;所选取的作为判断分类条件的指标具有普遍性,具有较强的说服力。并且决策树C4.5模型具有以下优点:1.能够生成易于理解的决策规则,易被人理解;2.清晰呈现重要的决策属性指标,便于以后做出决策判断及积累数据;3.计算量较小,大大提高了计算速度;4.既能处理数据量较小的情况,又能处理数据量较大的情况;5.可以同时处理连续的和离散的数据。这些优点使得我们能在有限的数据量下,方便快速准确的预测客户的信用风险,有助于银行信用风险管理人员及监管机构及时准确的掌握客户的信用风险状况,从而及时作出规避或降低信用风险的举措。但是,决策树法稳健性较差,即虽然其对训练样本的分类效果很好,但将所建立的决策树用于对保留样本的分类时,其错误比率有较大幅度的上升。在实际中,新的贷款申请人所属的总体可能与建模总体有一定的差异,决策树法的这种不稳健性可能造成错误分类率高。因此,我们在运用决策树进行分类预测时,一定要注意被预测样本所属的总体是否与所用模型属于同一总体。为解决这一问题,我们可以分行业对数据进行建模,也可以通过聚类分析找出待预测样本所属的总体,然后进行预测。