论文部分内容阅读
摘 要:本文通过SPSS、MATLAB软件对需贷款企业大量发票信息进行定量分析研究,使其转化为更加合理有效的可行性风险评价指标,再结合企业信誉信息,形成了信贷评价指标系统和决策树数据集,并建立了基于ID3算法的决策树初步模型。随着问题的深入,应考虑到信贷决策时存在的最优选择:一是在降低风险系数的同时,应尽量提高银行的利润,同时防止客户流失;二是研究不同突发因素对不同类别企业的影响程度。对此,模型引入了总利润检验、客户流失率指标以及AHP下的信贷调整策略,对决策树模型做进一步的优化处理。
关键词:风险指标系统;决策树;ID3算法
一、问题背景
2020年末,全国中小微企业贷款余额15.3万亿元,增速超过30%,其中5家大型银行增长54.8%。信贷业务是银行的基础业务与主要盈利业务,银行通过前后贷出与收回资金之差获得利润。而处于起步阶段的中小微企业是放贷主要对象,如果中小微企业由于某些因素不能履行信贷约定且无相应的抵押资产,将导致银行资金不能收回,出现烂账与亏损。
二、问题分析
银行在进行贷款时,审批的第一要素是风险,而不是所能获得的利润。当然在风险系数较低的前提下,使得所获的利益最大,便是最优决策。然而评价风险系数的指标较多,且有些企业相关数据需要进行合理的量化分析才能转化为具有可行性的风险评价指标,所以如何对需要贷款中小微企业的相关数据信息进行量化分析,得到合理的评价系统指标,建立相匹配的决策模型对信贷策略研究尤为重要。
三、模型建立
3.1模型的建立
通过对指标以及目标决策的分析,采用决策树模型。考虑到企业信贷风险指标的数量,以及最终目标对中小微企业的信贷策略,如何整合并定量分析企业信贷风险指标,从而做出可视化的决策树信贷策略是研究的关键。
于是,确立了以下建模步骤(如图3-1所示):
3.2 相关数据的处理
对于需要信贷企业提供的进项发票、销项发票、作废发票以及负数发票等不能直接反映企业信贷风险的信息进行量化处理,使其转化为可以直接反映企业信贷风险的指标。
3.2.1 引入供求变异系数CV评价指标
变异系数CV没有量纲,可以较为真实反映离散程度。例如,通过SPSS软件对样本企业E1和E10发票信息进行处理与分析,可以得到大数据下的CV1和CV10。
另一方面,通过MATLAB软件,建立了样本企业E1,E10近三年进项发票、销项发票分别和开具时间的可视化聚集程度图,进而可视化反映了样本企业E1、E10的供求关系稳定状况,从而印证了供求变异系数CV的真实性和可行性(如图3-2所示)。
3.2.2 引入无效发票比率系数WV指标
WV(作废发票的数量加上负数发票的数量之和与总发票数之比),WV数值越大则企业信誉值越低,反之越高。
3.3 宏观评价指标定量调整
由于相关信息的模糊性,会影响决策树分支,导致错误率会大大上升。为此,首先应对评价指标进行调整,划分区域,确定数值。
3.4 建立决策树模型
决策树ID3算法根据信息增益大小,对相关属性进行分层,并且通过运算可以得到在不同属性指标的组合下的判断结果。
3.4.1 引入特征属性分层指标
设有随机变量(X,Y),其联合概率分布以及条件熵H(Y|X)分别表示为:
(3-1)
信息增益表示为:
(3-2)
通过分别对三类指标的计算,且比较相应风险评价指标属性的信息增益大小可以对风险指标属性进行分层,从而形成决策树模型。
3.4.2对指标属性进行分层
运用MATLAB软件进行计算信息增益Gai(β)>Gai(α)>Gai(γ),于是应该优先对供求关系变异系数进行分支,其次再对企业信誉等级指标和无效发票率系数进行分支。
3.4.3 形成决策树模型
輸入:训练数据集U(见附件)、特征集A(见附件)、阈值ε
输出:决策树模型
3.5模型结果
3.6模型优化
当缺少企业评级与是否违约等信息时,充分利用两类信息在上述已经建立的基于ID3算法决策树模型中充当一个因变量和自变量这一条件,首先通过税额建立起与信用评级的关系,解决了缺少因变量信息问题,同时可求出相应自变量。其次,考虑到信贷策略的最优选择,引入了总利润检验、客户流失率指标对模型进行进一步优化。
鉴于各种突发因素对不同类别企业影响不尽相同,首先对企业进行分类,从而得到主要突发因素对不同类型企业的影响程度表,再利用AHP,与决策树模型相结合,形成优化后的信贷策略。
参考文献:
[1]王华.互联网大数据环境下的银行信贷风控研究[D].华北电力大学(北京),2019.
[2]赖春廷.决策树分类算法研究[J].信息与电脑(理论版),2020,32(14):59-62.
关键词:风险指标系统;决策树;ID3算法
一、问题背景
2020年末,全国中小微企业贷款余额15.3万亿元,增速超过30%,其中5家大型银行增长54.8%。信贷业务是银行的基础业务与主要盈利业务,银行通过前后贷出与收回资金之差获得利润。而处于起步阶段的中小微企业是放贷主要对象,如果中小微企业由于某些因素不能履行信贷约定且无相应的抵押资产,将导致银行资金不能收回,出现烂账与亏损。
二、问题分析
银行在进行贷款时,审批的第一要素是风险,而不是所能获得的利润。当然在风险系数较低的前提下,使得所获的利益最大,便是最优决策。然而评价风险系数的指标较多,且有些企业相关数据需要进行合理的量化分析才能转化为具有可行性的风险评价指标,所以如何对需要贷款中小微企业的相关数据信息进行量化分析,得到合理的评价系统指标,建立相匹配的决策模型对信贷策略研究尤为重要。
三、模型建立
3.1模型的建立
通过对指标以及目标决策的分析,采用决策树模型。考虑到企业信贷风险指标的数量,以及最终目标对中小微企业的信贷策略,如何整合并定量分析企业信贷风险指标,从而做出可视化的决策树信贷策略是研究的关键。
于是,确立了以下建模步骤(如图3-1所示):
3.2 相关数据的处理
对于需要信贷企业提供的进项发票、销项发票、作废发票以及负数发票等不能直接反映企业信贷风险的信息进行量化处理,使其转化为可以直接反映企业信贷风险的指标。
3.2.1 引入供求变异系数CV评价指标
变异系数CV没有量纲,可以较为真实反映离散程度。例如,通过SPSS软件对样本企业E1和E10发票信息进行处理与分析,可以得到大数据下的CV1和CV10。
另一方面,通过MATLAB软件,建立了样本企业E1,E10近三年进项发票、销项发票分别和开具时间的可视化聚集程度图,进而可视化反映了样本企业E1、E10的供求关系稳定状况,从而印证了供求变异系数CV的真实性和可行性(如图3-2所示)。
3.2.2 引入无效发票比率系数WV指标
WV(作废发票的数量加上负数发票的数量之和与总发票数之比),WV数值越大则企业信誉值越低,反之越高。
3.3 宏观评价指标定量调整
由于相关信息的模糊性,会影响决策树分支,导致错误率会大大上升。为此,首先应对评价指标进行调整,划分区域,确定数值。
3.4 建立决策树模型
决策树ID3算法根据信息增益大小,对相关属性进行分层,并且通过运算可以得到在不同属性指标的组合下的判断结果。
3.4.1 引入特征属性分层指标
设有随机变量(X,Y),其联合概率分布以及条件熵H(Y|X)分别表示为:
(3-1)
信息增益表示为:
(3-2)
通过分别对三类指标的计算,且比较相应风险评价指标属性的信息增益大小可以对风险指标属性进行分层,从而形成决策树模型。
3.4.2对指标属性进行分层
运用MATLAB软件进行计算信息增益Gai(β)>Gai(α)>Gai(γ),于是应该优先对供求关系变异系数进行分支,其次再对企业信誉等级指标和无效发票率系数进行分支。
3.4.3 形成决策树模型
輸入:训练数据集U(见附件)、特征集A(见附件)、阈值ε
输出:决策树模型
3.5模型结果
3.6模型优化
当缺少企业评级与是否违约等信息时,充分利用两类信息在上述已经建立的基于ID3算法决策树模型中充当一个因变量和自变量这一条件,首先通过税额建立起与信用评级的关系,解决了缺少因变量信息问题,同时可求出相应自变量。其次,考虑到信贷策略的最优选择,引入了总利润检验、客户流失率指标对模型进行进一步优化。
鉴于各种突发因素对不同类别企业影响不尽相同,首先对企业进行分类,从而得到主要突发因素对不同类型企业的影响程度表,再利用AHP,与决策树模型相结合,形成优化后的信贷策略。
参考文献:
[1]王华.互联网大数据环境下的银行信贷风控研究[D].华北电力大学(北京),2019.
[2]赖春廷.决策树分类算法研究[J].信息与电脑(理论版),2020,32(14):59-62.