论文部分内容阅读
小额信贷是政府或者金融机构以信用作为评价标准向中低收入群体提供的小额度贷款服务。随着互联网消费金融兴起,小额信贷慢慢渗入到我们生活。然而,各个金融机构在获得消费信贷带来利润的同时,往往不能忽视其中暗含的信用风险。于是,个人信用风险的识别和信贷风险的管理成为了热议的话题。
关于个人信贷评分模型,目前国内外主要的方法有:专家模型、机器学习、线性规划、判别分析和Logistic回归。其中,Logistic回归无需对自变量进行任何假定,且具有较好解释性和稳定性,因此被广泛应用于信用评分。为进一步增加数据对模型的驱动性,人们将已知连接函数的广义加性模型GAMKL(假定连接函数为Logistic)引入到信用评分模型中,每一个自变量的成分函数既可以是线性形式,也可以是非线性形式,扩大了Logistic在信用评分这一领域的应用,但是并没有对连接函数是否真的为Logistic这一问题进行过研究。
为了解决上述问题,本文的主要工作如下:
一、详细的介绍了变量选择的方法,其中包括基于惩罚函数的变量选择方法、处理响应变量大于样本的Dantzigselector及其衍生方法、以及响应变量远远大于样本量的SIS及其衍生方法。在目前的信用评分模型建模过程中,人们大多采用的是Lasso及其衍生方法Alasso,但是这些方法都是在广义线性的背景下提出的,为了进一步减少对模型的限制,本文使用非参独立扫描进行变量选择,有效的增加整个信用评分中模型的适应性。
二、详细的介绍了随机森林、已知连接函数的广义加性模型、未知连接函数的广义加性模型,结合之前提到的非参独立扫描方法,构建了随机森林、非参独立扫描-已知连接函数的广义加性模型(NIS-GAMKL(假定连接函数为Logistic))、非参独立扫描-未知连接函数的广义加性模型(NIS-GAMUL)等三个信用评分模型。
三、进行了实证分析,由于Logistic具有前提假设少和稳健的优良性质,之前有关于信用风险预测的研究大多都是围绕Logistic展开的。但是,在本文需要解决的实际数据中,并没有充分理由相信自变量和响应变量是Logistic关系。并且提供数据的小额贷款金融公司除了想要进行预测外,还希望了解到各个变量是如何对信用风险造成影响的。为了解决这两个问题,本文首先使用非参独立扫描方法对变量进行选择,再使用GAMUL对数据建立模型。无论是变量选择还是模型建立,NIS-GAMUL都没有对自变和响应变量进行过多的人为主观假设,使整个模型具有较强的变通性。
最后,本文从解释性、预测精确性两个方面来对上述三个模型进行评价。
第一,模型可解释性。虽然随机森林定性的列出了变量重要性排序,但由于该方法只是从众多的决策树去投票进行判别,并没有定量描述每一个变量对响应变量的影响,所以相较与其他两个模型,解释性较差。
第二,模型预测精确性。从特效度(specificity:即所有非违约被正确预测的比例)和从整体效果来看,GAMUL优于随机森林和GAMKL。
关于个人信贷评分模型,目前国内外主要的方法有:专家模型、机器学习、线性规划、判别分析和Logistic回归。其中,Logistic回归无需对自变量进行任何假定,且具有较好解释性和稳定性,因此被广泛应用于信用评分。为进一步增加数据对模型的驱动性,人们将已知连接函数的广义加性模型GAMKL(假定连接函数为Logistic)引入到信用评分模型中,每一个自变量的成分函数既可以是线性形式,也可以是非线性形式,扩大了Logistic在信用评分这一领域的应用,但是并没有对连接函数是否真的为Logistic这一问题进行过研究。
为了解决上述问题,本文的主要工作如下:
一、详细的介绍了变量选择的方法,其中包括基于惩罚函数的变量选择方法、处理响应变量大于样本的Dantzigselector及其衍生方法、以及响应变量远远大于样本量的SIS及其衍生方法。在目前的信用评分模型建模过程中,人们大多采用的是Lasso及其衍生方法Alasso,但是这些方法都是在广义线性的背景下提出的,为了进一步减少对模型的限制,本文使用非参独立扫描进行变量选择,有效的增加整个信用评分中模型的适应性。
二、详细的介绍了随机森林、已知连接函数的广义加性模型、未知连接函数的广义加性模型,结合之前提到的非参独立扫描方法,构建了随机森林、非参独立扫描-已知连接函数的广义加性模型(NIS-GAMKL(假定连接函数为Logistic))、非参独立扫描-未知连接函数的广义加性模型(NIS-GAMUL)等三个信用评分模型。
三、进行了实证分析,由于Logistic具有前提假设少和稳健的优良性质,之前有关于信用风险预测的研究大多都是围绕Logistic展开的。但是,在本文需要解决的实际数据中,并没有充分理由相信自变量和响应变量是Logistic关系。并且提供数据的小额贷款金融公司除了想要进行预测外,还希望了解到各个变量是如何对信用风险造成影响的。为了解决这两个问题,本文首先使用非参独立扫描方法对变量进行选择,再使用GAMUL对数据建立模型。无论是变量选择还是模型建立,NIS-GAMUL都没有对自变和响应变量进行过多的人为主观假设,使整个模型具有较强的变通性。
最后,本文从解释性、预测精确性两个方面来对上述三个模型进行评价。
第一,模型可解释性。虽然随机森林定性的列出了变量重要性排序,但由于该方法只是从众多的决策树去投票进行判别,并没有定量描述每一个变量对响应变量的影响,所以相较与其他两个模型,解释性较差。
第二,模型预测精确性。从特效度(specificity:即所有非违约被正确预测的比例)和从整体效果来看,GAMUL优于随机森林和GAMKL。