论文部分内容阅读
在“互联网+”的大背景下,传统金融机构与互联网深度融合,互联网消费金融应运而生,形成了以银行、电商平台、消费金融公司等为主体的多元化运作模式,并且以其无担保、无抵押、放款快等特点迅速渗透到现实生活中的各个消费场景中,加速了个人消费信贷市场的发展,改变了个人消费理念和消费习惯,在促进消费,拉动经济增长方面发挥了重要的作用。但是由于互联网消费金融行业普遍存在的个人征信短板、信用数据缺失、过度授信等问题,在其快速发展的背后,也隐藏着许多风险,其中信用风险又最为关键。因此,针对互联网消费金融面临的信用风险问题,本文分别从改进个人信用评估方法和完善个人征信体系两方面着手,基于互联网消费金融公司内部真实数据,利用个人的传统信用信息以及新的互联网信息(即从互联网上提取的用户通讯行为信息和同盾贷前审核信息,为了便于表述,本文统称为互联网信息),建立适用于互联网消费金融行业的个人信用评估模型以及相应的信用评估指标体系,旨在进一步增强其信用风险防范能力,发挥助力普惠金融、促进经济健康发展的积极作用。
为了更好地实现上述研究目标,本文首先通过梳理国内外学者在互联网消费金融、个人征信体系以及个人信用评估相关领域的研究成果,揭示出本文的研究背景、意义及框架。其次,本文分别对互联网消费金融相关概念、个人信用评估方法以及集成学习方法的原理进行了较为详细的介绍,为后文的实证分析提供理论依据。再次,本文利用国内某互联网消费金融公司内部真实数据,从提升集成模型整体性能出发,引入贝叶斯优化算法对各个基模型进行参数优化,构建了基于贝叶斯优化(Bayesian Optimization:BO)的Stacking集成分类模型(BO-Stacking),并通过实证对比分析验证了该模型具有较其他评估模型更优的分类性能。最后,本文对互联网信息的有效性进行分析,并利用XGBoost模型特征重要性分析的功能以及Kolmogorov-Smirnov(KS)检验方法,筛选出重要性排名靠前的特征,用以构建基于互联网信息的个人信用评估指标体系。
本文研究主要有以下三处创新:
(1)数据来源及特征构造上的创新。本文数据来自国内某互联网消费金融公司经用户授权使用的内部真实数据,有真实的应用场景,除了包含传统的信用评估特征之外,还包含从用户通讯报告以及同盾贷前审核报告中加工提取出的很多新的特征,涉及用户大量线上数据信息,并且这些数据较难伪造,能够真实反映用户的行为特征,因此本文数据在特征构造方面不同于传统的信用评估,在此基础上建立的评估模型,具有较强的实用性和可靠性,更加适合于互联网消费金融场景。
(2)信用评估模型上的创新。本文选取了Stacking方法来实现异态集成,从提升集成的整体性能出发,基于集成理论中“好而不同”的思想,本文使用不同的集成算法来构建基模型,并引入搜索效率更高的贝叶斯优化算法对基模型进行参数优化,以使其达到更优的性能,同时采用K折交叉验证法防止过拟合以及增强基模型之间的差异性,最终建立本文的BO-Stacking集成分类模型,并通过实证对比分析验证了该模型在分类性能上的优势,有助于加速个人信用评估方法的创新。
(3)信用评估指标体系上的创新。本文针对数据集中新的特征构建了基于互联网信息的个人信用评估指标体系。具体来说,本文首先对互联网信息的有效性进行了分析,证明了这些信息能够提升模型性能,可以用于个人信用评估领域。其次,本文利用XGBoost对特征的重要性进行估计,筛选出重要性排名靠前的特征,并通过KS检验方法进一步验证这些特征在识别违约风险上的作用。最后,通过相关性分析,得到了这些特征指标的具体取值和违约风险大小的关系,并以各个特征指标的重要性分数计算相应的权重,构建出基于互联网信息的个人信用评估指标体系,能够为现有的个人征信指标体系提供一定的参考和有益的补充。
为了更好地实现上述研究目标,本文首先通过梳理国内外学者在互联网消费金融、个人征信体系以及个人信用评估相关领域的研究成果,揭示出本文的研究背景、意义及框架。其次,本文分别对互联网消费金融相关概念、个人信用评估方法以及集成学习方法的原理进行了较为详细的介绍,为后文的实证分析提供理论依据。再次,本文利用国内某互联网消费金融公司内部真实数据,从提升集成模型整体性能出发,引入贝叶斯优化算法对各个基模型进行参数优化,构建了基于贝叶斯优化(Bayesian Optimization:BO)的Stacking集成分类模型(BO-Stacking),并通过实证对比分析验证了该模型具有较其他评估模型更优的分类性能。最后,本文对互联网信息的有效性进行分析,并利用XGBoost模型特征重要性分析的功能以及Kolmogorov-Smirnov(KS)检验方法,筛选出重要性排名靠前的特征,用以构建基于互联网信息的个人信用评估指标体系。
本文研究主要有以下三处创新:
(1)数据来源及特征构造上的创新。本文数据来自国内某互联网消费金融公司经用户授权使用的内部真实数据,有真实的应用场景,除了包含传统的信用评估特征之外,还包含从用户通讯报告以及同盾贷前审核报告中加工提取出的很多新的特征,涉及用户大量线上数据信息,并且这些数据较难伪造,能够真实反映用户的行为特征,因此本文数据在特征构造方面不同于传统的信用评估,在此基础上建立的评估模型,具有较强的实用性和可靠性,更加适合于互联网消费金融场景。
(2)信用评估模型上的创新。本文选取了Stacking方法来实现异态集成,从提升集成的整体性能出发,基于集成理论中“好而不同”的思想,本文使用不同的集成算法来构建基模型,并引入搜索效率更高的贝叶斯优化算法对基模型进行参数优化,以使其达到更优的性能,同时采用K折交叉验证法防止过拟合以及增强基模型之间的差异性,最终建立本文的BO-Stacking集成分类模型,并通过实证对比分析验证了该模型在分类性能上的优势,有助于加速个人信用评估方法的创新。
(3)信用评估指标体系上的创新。本文针对数据集中新的特征构建了基于互联网信息的个人信用评估指标体系。具体来说,本文首先对互联网信息的有效性进行了分析,证明了这些信息能够提升模型性能,可以用于个人信用评估领域。其次,本文利用XGBoost对特征的重要性进行估计,筛选出重要性排名靠前的特征,并通过KS检验方法进一步验证这些特征在识别违约风险上的作用。最后,通过相关性分析,得到了这些特征指标的具体取值和违约风险大小的关系,并以各个特征指标的重要性分数计算相应的权重,构建出基于互联网信息的个人信用评估指标体系,能够为现有的个人征信指标体系提供一定的参考和有益的补充。