论文部分内容阅读
近年来随着消费需求的激增和超前消费意识的形成,产生了大量的小额分散贷款需求,而银行的传统信贷业务并不能覆盖这些需求,互联网信贷因其贷款便捷性迅速在市场上铺开,但互联网信贷不像传统信贷有抵押和担保,其仅基于贷款人征信做出贷款审批决策,且由于互联网信贷市场发展初期的不规范性及相关法律的缺失,互联网信贷的风险极高,风险控制成为信贷机构面临的关键问题。由于信贷机构只会对审核通过的贷款申请(接受样本)放贷,因此最终只能获得接受样本的违约标签,而接受样本只是整体申请样本的一个有偏子集,模型迭代过程中仅基于接受样本建模会使模型过度拟合到接受样本上,使信贷风控模型对未来申请样本的预测精度面临挑战。
信贷风控模型的理论研究和实践中一般通过拒绝推断技术降低模型的过拟合风险,即通过推断出拒绝样本的违约标签从而将打上标签的拒绝样本纳入训练样本进行模型学习,但拒绝推断模型的性能依赖于拒绝推断的准确性,若拒绝推断的效果不佳,那么拒绝推断模型的性能很可能会下降。
本文跳出信贷风控问题的传统解决思路,从全新的视角校正样本选择偏差:鉴于短时间内客户的违约模式不会发生太大的变化,违约判别规则也不应发生太大变化,因此本文从控制信贷风控模型迭代优化的变化程度出发来避免模型的过拟合风险;本文通过引入正则化技术对传统逻辑回归算法进行改进,构建的平滑正则化项借鉴了经典的二范数正则化技术,通过控制信贷风控模型迭代过程中的差异使模型迭代平滑,以降低模型过拟合风险;通过平滑正则化项系数控制平滑力度,鉴于接受样本和拒绝样本的分布差异性,则对于接受样本和拒绝样本而言平滑力度也存在差异,因此本文采取差异化建模,即针对接受样本和拒绝样本分别建模并测试。
本文基于融360平台提供的真实借贷数据集进行实证分析,实验结果表明,本文构建的平滑正则化项能够鼓励信贷风控模型的迭代平滑,并且验证了进行平滑鼓励得到的模型效果比不进行平滑鼓励得到的模型效果更优;另外,本文算法针对不用类型的测试集有不同的提升规律,验证了本文差异性建模和测试的合理性。本文算法基于接受样本验证集进行针对于接受样本的平滑正则化项系数的调整,基于经过重要性采样的接受样本验证集进行针对于拒绝样本的平滑正则化项系数的调整,对比本文算法、传统逻辑回归算法、常用的拒绝推断方法(硬截止法、模糊增强、打包法、重赋权法)的模型效果,发现本文算法的表现最优,相较于传统逻辑回顾有较大提升;拒绝推断方法在拒绝样本上能够获得的提升较大,然而对于接受样本而言提升较小,本文算法无论是在接受样本,还是在拒绝样本上都能够获得较大的提升。本文还尝试了将平滑正则化项与经典二范数正则化项进行融合,实验结果表明,二范数正则化项确实能够提升传统逻辑回归的效果,同时使用二范数正则化项和本文提出的平滑正则化项能使模型效果进一步提升,说明本文算法具有与传统的经典方法融合获得更大提升的潜力。本文提出的信贷风控模型迭代平滑的思想是一般性的,本文基于该思想对传统逻辑回归算法进行改进,该思想也可以迁移到其他分类算法中。
信贷风控模型的理论研究和实践中一般通过拒绝推断技术降低模型的过拟合风险,即通过推断出拒绝样本的违约标签从而将打上标签的拒绝样本纳入训练样本进行模型学习,但拒绝推断模型的性能依赖于拒绝推断的准确性,若拒绝推断的效果不佳,那么拒绝推断模型的性能很可能会下降。
本文跳出信贷风控问题的传统解决思路,从全新的视角校正样本选择偏差:鉴于短时间内客户的违约模式不会发生太大的变化,违约判别规则也不应发生太大变化,因此本文从控制信贷风控模型迭代优化的变化程度出发来避免模型的过拟合风险;本文通过引入正则化技术对传统逻辑回归算法进行改进,构建的平滑正则化项借鉴了经典的二范数正则化技术,通过控制信贷风控模型迭代过程中的差异使模型迭代平滑,以降低模型过拟合风险;通过平滑正则化项系数控制平滑力度,鉴于接受样本和拒绝样本的分布差异性,则对于接受样本和拒绝样本而言平滑力度也存在差异,因此本文采取差异化建模,即针对接受样本和拒绝样本分别建模并测试。
本文基于融360平台提供的真实借贷数据集进行实证分析,实验结果表明,本文构建的平滑正则化项能够鼓励信贷风控模型的迭代平滑,并且验证了进行平滑鼓励得到的模型效果比不进行平滑鼓励得到的模型效果更优;另外,本文算法针对不用类型的测试集有不同的提升规律,验证了本文差异性建模和测试的合理性。本文算法基于接受样本验证集进行针对于接受样本的平滑正则化项系数的调整,基于经过重要性采样的接受样本验证集进行针对于拒绝样本的平滑正则化项系数的调整,对比本文算法、传统逻辑回归算法、常用的拒绝推断方法(硬截止法、模糊增强、打包法、重赋权法)的模型效果,发现本文算法的表现最优,相较于传统逻辑回顾有较大提升;拒绝推断方法在拒绝样本上能够获得的提升较大,然而对于接受样本而言提升较小,本文算法无论是在接受样本,还是在拒绝样本上都能够获得较大的提升。本文还尝试了将平滑正则化项与经典二范数正则化项进行融合,实验结果表明,二范数正则化项确实能够提升传统逻辑回归的效果,同时使用二范数正则化项和本文提出的平滑正则化项能使模型效果进一步提升,说明本文算法具有与传统的经典方法融合获得更大提升的潜力。本文提出的信贷风控模型迭代平滑的思想是一般性的,本文基于该思想对传统逻辑回归算法进行改进,该思想也可以迁移到其他分类算法中。