基于Gradient Boosting算法的小企业信用风险评估

来源 :浙江金融 | 被引量 : 0次 | 上传用户:genglb119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用风险是导致银行破产的主要原因之一。传统上基于专家规则的信用风险评分模型虽然具有较好的业务解释性,但对建模人员的业务经验和理论水平有较高要求,也无法挖掘变量之间复杂的相关关系从而实现完全的数据驱动建模。本文使用GradienttBoosting算法对我行小企业信贷客户数据建模,并和逻辑回归以及专家规则模型进行横向比较和分析。实验结果表明,以违约样本召回率和ROC为模型评估指标,GradienttBoosting算法的模型精度和模型稳定性显著优于另外两种模型,另外,GradienttBoosting和逻辑回归两种基于机器学习的模型表现要明显好于专家规则模型。 Credit risk is one of the major causes of bankruptcy. Traditionally, the credit risk scoring model based on expert rules has good business explanation, but it has high requirements for the modeling staff’s business experience and theoretical level, and can not mine the complex correlation between variables in order to achieve complete data Drive modeling. This paper uses the Gradient Boosting algorithm to model the SME credit customer data in our bank and compares and analyzes it horizontally with the logistic regression and expert rule model. The experimental results show that the model accuracy and model stability of Gradient tBoosting algorithm are significantly better than those of the other two models with default sample recall rate and ROC as model evaluation indexes. In addition, Gradient Boosting and Logistic Regression are two models based on machine learning The performance is obviously better than the expert rule model.
其他文献
目的:通过对广州市越秀区男同性恋人群艾滋病相关知识、高危行为及感染状况的调查,为针对该人群开展艾滋病预防工作提供参考。方法:与非政府组织(岭南伙伴健康支持中心)合作,
期刊
GPS
因婚嫁失地是农村土地承包制度改革过程中困扰农村妇女生存发展的重要问题,其可能的后果之一是使农村妇女由于没有自己名下的土地而在家庭关系中处于弱势地位,甚至增加遭受家
沁源,位于上党地区西北部,背倚太行山,俯临沁河水,山清水秀,人杰地灵,历史悠久,底蕴深厚。抗日战争时期,中共太岳区党委、太岳军区司令部在沁源境内驻扎了相当长的时间,领导
大肠杆菌细胞存在三个潜在的分裂位点。通常情况下,大肠杆菌细胞仅利用中部的分裂位点以二分裂方式进行细胞的均等分裂。细胞分裂蛋白缺失或表达异常均会影响细胞分裂位点的决
介绍了钢管混凝土结构的发展,列举了钢管混凝土结构的应用,并指出了钢管混凝土结构的特点.
提出一种宽频带、高增益全向天线的实现方法,分析其工作原理,给出设计参数和实测结果。天线在3GHz~18GHz频带内,电压驻波比小于2,实测增益在0dBi~11dBi范围内波动,最大实测增益
对我国目前高中语文教学的情况进行分析能够发现,高中教师在古诗词、阅读、作文的教学上需要面临更多的困难,也需要付出更多的时间和精力。为了能够提升教学效果,教师需要细
在分析传统Canny算子边缘检测原理的基础上,提出了一种自适应Canny边缘检测方法。文中方法在保持了传统Canny算子原有的信噪比高、定位准确和单边缘响应优点基础上,提高了抑
本文主要研究城市人口空间分布模型在长春市区的应用,目的在于模拟长春市区人口的空间分布情况。本文参考前人研究的基于城镇面积的城市人口密度系数模型,同时考虑交通网对城