论文部分内容阅读
随着互联网金融的发展、P2P平台数量的壮大以及网贷需求的迅速发展,基于网贷用户的信用风险评定以及违约预测变得尤为重要。网贷业务场景下,贷款额度通常较低,贷款量庞大,传统的人工审批已不能满足网贷业务场景的需求;并且,网贷客户群体大多属于无征信人群,仅凭基本信息对用户进行信用评定的方法亦难以有效界定用户违约风险。但实际上,网贷平台依托于互联网,其天然存在一定的数据优势,充分利用好网贷平台的现有数据并整合第三方数据,同时深入挖掘用户行为对其违约进行预判是未来发展的一大方向。本文基于含用户登录日志以及用户信息更新日志的贷款交易数据,将其划分为基本信息、第三方数据、地理信息、登录日志、信息更新日志等六个分模块进行深入地挖掘与分析,并引入机器学习中特征工程的研究模型,对数据进行拓展与提炼。经本文研究发现,贷款前频繁更新个人信息的用户较其他用户而言更倾向于贷款违约。之后,本文基于特征工程提炼的信息,采用包裹式选择与过滤式选择相结合的方法,对其进行进一步的筛选与精简,构造出对于用户违约最具预测能力的特征子集,并利用Xgboost算法框架进行模型训练,得到准确性及稳定性均达预期水平的违约预测模型。通过深入分析本文所涉贷款数据的业务场景,结合模型搭建的分析流程,本文对于用户行为日志数据在用户违约预测上的应用提出建议,认为该数据适合作为反欺诈的规则提炼样本,通过对数据的分析与建模,获取预警指标,并将其部署于风控模型主体的后端,用以对用户风险等级进行调整或对用户违约情况进行预警并引入人工干预。