论文部分内容阅读
随着科技在金融领域的深入运用以及我国普惠金融政策的不断推出,消费信贷领域在近几年里迎来了爆发式的增长。新兴的互联网金融公司在信用贷款领域攻城拨寨,大大拓展了金融信贷产品用户的广度和深度。同时在信贷客户背景日益复杂的背景下,对金融机构的风险把控与识别能力提出了更高的要求。互联网金融公司开始广泛应用以机器学习为代表的金融科技技术来辅助风控,商业银行也开启了一波金融科技转型浪潮,逐渐将更多的新技术、新工具应用到传统消费信贷领域中。本文通过对商业银行标准信用评分模型的开发流程进行剖析的基础上,针对其中影响模型效果最为关键的环节-特征分箱进行了方法探索,将机器学习中的决策树算法引入特征分箱过程中,以基尼系数为分箱依据,并辅以最大树深度和最小叶节点数等参数,实现基于决策树的特征分箱方法。通过这种方式,减少特征分箱中数据信息的损失,并提高模型预测效果。数据对比显示,基于决策树的分箱算法与传统的等频分箱法相比,变量IV值得到了较大幅度的提升。本文以一份互联网金融领域中的真实信贷还款数据为研究对象,采用标准信用评分建模方法,将决策树纳入特征分箱算法中。在经历数据清洗和衍生、关键定义确定、样本选取、训练集测试集划分、特征分箱、WOE及IV值计算、相关系数及多重共线性检验、模型建立、分数校准等步骤建立信用评分模型,并对模型效果进行评估。结果发现,基于决策树的特征分箱算法能充分挖掘入模数据的隐含信息,在小样本情况下依然能够得到相当不错的预测效果。为商业银行信用评分模型的开发提供了一种新颖且有效的思路,具有较好的实际应用意义。