论文部分内容阅读
近年来,随着互联网金融的迅速壮大,各类信贷产品的消费群体范围日益扩大。行业迅速膨胀的背后,是风险的急剧增长。除了传统的信用风险,欺诈风险已经成为一个主要风险,甚至在一些P2P公司,恶意欺诈产生的损失占整体坏账的 60%。无论是传统金融机构,还是新兴互联网金融机构,都有着巨大的金融反欺诈需求,如何真实、客观地反映用户信用具有重大而迫切的现实意义。
本文梳理了反欺诈业务的现状,对现有文献中信用评价领域用到的主要模型以及各个模型在实际应用中的效果进行了简要介绍,并使用业务数据对反欺诈问题进行实证分析。本文建模数据样本量近 2 万人,经过数据去重、清洗、连续变量离散化、选项合并、WOE转化等处理后建模,在解释变量方面,首先用个人信息、贷款信息、通信信息、工作信息、居住信息、消费信息、多重借贷信息和信用信息这八个维度共56个变量建模;现有研究中没有考虑网络结构数据,本文从社交数据角度探索反欺诈新思路,用该 2 万样本点关联250万余条通话关系,形成社交网络,生成PageRank值、三角计数、度、n度联系人违约情况等共19个社交网络指标,用以上75个解释变量建模。在被解释变量方面,对非欺诈人员的两种定义,使得最终建模数据有两种样本点,同时有两类解释变量。在模型选择方面,本文建立四种模型,分别是Logistic回归与逐步回归、Logistic回归与Lasso、随机森林、Xgboost。分析、比较模型结果得到:加入社交网络指标后的模型效果更好,KS值、AUC值、预测阳性率和真阳性率的指标均有提升;使用“前三期最大逾期天数为0的是非欺诈人员,前三期最大逾期天数大于 60 天的是欺诈人员”这一欺诈定义使模型拟合效果更好;若想要得到更好的效果和更快的运行速度,则选择Xgboost 模型;若对解释性要求高,则选择 Logistic 回归与逐步回归;“贷款金额”和“上12个月消费类交易金额总和”是 IV值最大的两个变量,Beta系数或变量重要性也较高,对模型的影响和贡献大,能够区分欺诈人员;社交网络指标中“一度联系人中前三期最大逾期天数大于 60 的人数”和“二度联系人中前三期最大逾期天数大于 60 的人数”,也就是一、二度联系人中欺诈人员的数量,对欺诈的预测概率影响很大,尤其是“一度联系人中前三期最大逾期天数大于60的人数”,Beta系数或变量重要性很高。
本文对社交网络数据进行了分析,得出结论:三角计数50以上的人员有82.61%逾期,风险较大。尤其是因共同联系人导致三角计数过高的人违约风险较大,但欺诈表现不明确。三角计数值50以上的人员,若他的一度联系人中在本处有过贷款记录并且逾期的占比在90%以上,则他会逾期60天以上。
本文深入研究了社交网络指标在金融反欺诈中的应用,发现了社交网络数据在识别欺诈风险中的重要表现。不仅具有一定的理论意义,并且为相关金融企业提出更有效的反欺诈策略,具有一定的实践意义。
本文梳理了反欺诈业务的现状,对现有文献中信用评价领域用到的主要模型以及各个模型在实际应用中的效果进行了简要介绍,并使用业务数据对反欺诈问题进行实证分析。本文建模数据样本量近 2 万人,经过数据去重、清洗、连续变量离散化、选项合并、WOE转化等处理后建模,在解释变量方面,首先用个人信息、贷款信息、通信信息、工作信息、居住信息、消费信息、多重借贷信息和信用信息这八个维度共56个变量建模;现有研究中没有考虑网络结构数据,本文从社交数据角度探索反欺诈新思路,用该 2 万样本点关联250万余条通话关系,形成社交网络,生成PageRank值、三角计数、度、n度联系人违约情况等共19个社交网络指标,用以上75个解释变量建模。在被解释变量方面,对非欺诈人员的两种定义,使得最终建模数据有两种样本点,同时有两类解释变量。在模型选择方面,本文建立四种模型,分别是Logistic回归与逐步回归、Logistic回归与Lasso、随机森林、Xgboost。分析、比较模型结果得到:加入社交网络指标后的模型效果更好,KS值、AUC值、预测阳性率和真阳性率的指标均有提升;使用“前三期最大逾期天数为0的是非欺诈人员,前三期最大逾期天数大于 60 天的是欺诈人员”这一欺诈定义使模型拟合效果更好;若想要得到更好的效果和更快的运行速度,则选择Xgboost 模型;若对解释性要求高,则选择 Logistic 回归与逐步回归;“贷款金额”和“上12个月消费类交易金额总和”是 IV值最大的两个变量,Beta系数或变量重要性也较高,对模型的影响和贡献大,能够区分欺诈人员;社交网络指标中“一度联系人中前三期最大逾期天数大于 60 的人数”和“二度联系人中前三期最大逾期天数大于 60 的人数”,也就是一、二度联系人中欺诈人员的数量,对欺诈的预测概率影响很大,尤其是“一度联系人中前三期最大逾期天数大于60的人数”,Beta系数或变量重要性很高。
本文对社交网络数据进行了分析,得出结论:三角计数50以上的人员有82.61%逾期,风险较大。尤其是因共同联系人导致三角计数过高的人违约风险较大,但欺诈表现不明确。三角计数值50以上的人员,若他的一度联系人中在本处有过贷款记录并且逾期的占比在90%以上,则他会逾期60天以上。
本文深入研究了社交网络指标在金融反欺诈中的应用,发现了社交网络数据在识别欺诈风险中的重要表现。不仅具有一定的理论意义,并且为相关金融企业提出更有效的反欺诈策略,具有一定的实践意义。