基于FGBDT算法的贷款概率预测系统

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 4次 | 上传用户:maoduoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘在金融行业的使用日益广泛,例如,利用决策树模型进行购买力分析,利用kmeans算法进行客户细分研究,基于ID3算法的信贷客户信用评估等等。如何充分利用好有限的金融数据,充分地挖掘其中的潜在信息、知识、规律并对其加以利用,以为商家创造更多盈利点、提高盈利率,是金融服务提供商所关注的焦点。本工作通过对某款贷款APP的注册用户信息进行挖掘,预测注册用户中未成功贷款用户再次发起贷款请求的概率,按照再次贷款可能性的大小对用户进行排序,企业按照贷款概率对不同得分的用户进行不同策略的营销,以达到减小市场营销成本、提高工作效率的目的。在对数据进行建模的过程中,采用了开源机器学习算法库Scikit-Learn和百度大规模机器学习平台Pulsar中的多种算法进行建模比较,通过实验找出在该类型数据下性能最优的算法—FGBDT(Fully-Corrective Gradient Boosting Decision Tree,Pulsar 平台)。此外,出于长期与该贷款平台合作以及优化Pulsar平台现有的FGBDT模型训练系统的考虑,本工作中基于Pulsar平台FGBDT算法开发了一套FGBDT超参数学习系统,该系统能够自动学习出输入的训练数据的最优FGBDT模型超参数。该系统中主要集成了数据预处理、模型训练(使用FGBDT模型)、交叉验证、FGBDT最优超参数分析等模块,将以往需要大量人工纪录、调试的工作全部自动化执行,大大简化了人工干预、提升了工作效率。由于该系统对Pulsar平台FGBDT训练系统进行了诸多改进,FGBDT超参系统已上线至百度大规模机器学习平台Pulsar。基于该超参学习系统,只需要再添加少数几个模块就能预测出用户贷款概率,与FGBDT超参学习系统组合起来成为一套完整的贷款概率预测系统。该贷款概率预测系统大大地降低了金融数据挖掘工作的技术门槛以及人力成本,具有良好的实用价值与经济效益。本工作中对样本数据进行了处理、建模,正确、有效地预测出样本数据中每个未成功贷款用户再次贷款的概率,发现潜在贷款人群,对贷款概率高的用户群体进行有针对性地精准营销,减少商家运营成本,提高利润。针对特定的数据与任务,如何找到与其最为匹配的算法模型。运用数据挖掘方法正确高效地预测出用户的贷款概率,其中涉及到各种数据挖掘算法的适用场景、算法性能的优化、算法对大数据集的可扩展性等等问题。需要寻找出最适合本问题的一种或多种数据挖掘算法。具体的算法选择是通过在相同测试集上的评测指标如MAE(最小均方误差)、精确率、AUC来进行的。本工作中通过对开源机器学习库Scikit-Learn和百度大规模机器学习平台Pulsar平台上的多种算法进行建模比较,对每个模型都在相同测试集上进行五折交叉验证,通过平均AUC和AUC方差来比较不同模型的优劣,最终选取出FGBDT算法。此外,为进一步提高模型的预测精确度,根据数据特征的分布情况将特征分成五组,针对每一组特征对数据进行相应处理后对其进行单独建模,最后将不同层级的模型组合起来获得组合模型。此外,本工作中开发出一套完整高效的用户贷款概率系统,将原本需要大量人工操作的预测过程规范化、自动化、流程化。该系统是在FGBDT超参学习系统的基础之上增加少数几个模块(全量数据集训练、负样本数据提取、贷款概率预测)实现的。FGBDT超参学习系统能够对给定的输入数据学习出最优的若干组FGBDT模型超参数,该系统包括数据预处理、模型训练、交叉验证、结果分析等后台模块以及前端参数输入、运行监控、日志展示、结果展示等Web界面。需要对新的一批用户进行预测时,只需要将数据上传至平台,设置最基本的参数,系统即可自动完成数据预处理、模型训练、交叉验证、贷款概率预测等步骤,无需人工干预。如何能够让系统的对大数据集良好地支持以及尽可能地降低模型训练、预测的耗时。在大数据集下,小数据集下的算法、系统一般都会变得不再实用,会出现诸如训练时间过长、效率低下或者直接内存溢出系统报错的问题。这就要求系统对数据的量级有非常好的鲁棒性于可扩展性。此外,用户对贷款的需求是有一定的时效性,一旦用户在其他平台获得贷款以后,短期内用户贷款的可能性便很小。所以,如何快速有效地训练出模型,预测出贷款概率是一个关键的问题。百度Pulsar平台通过将输入输出数据存放在HDFS分布式文件存储系统来解决大数据集的存储,通过Hadoop和MPI集群来并行化模型的训练、预测过程,大大降低了整个系统的处理过程。本工作中开发的贷款概率预测系统也是基于百度Pulsar平台原有的FGBDT模型训练系统进行改进、封装、二次开发后的系统,因此天然兼备对大数据集的支持,同时也具有良好的并行度。
其他文献
目的:了解家庭作坊式皮革业劳动者职业卫生现状,为家庭作坊式皮革业的职业病防治管理提供科学依据。方法:采用现况调查的方法对泸州地区家庭作坊式皮革业职业卫生现状进行调
从公路半刚性基层沥青路面典型结构、强度和有关病害出发,分析该路面结构维修,提出维修方法。
本刊讯 第五届中美互联网论坛于2011年12月7日至8日在美国华盛顿举行。
《苏东坡传》是公认的经典,但是不少学生阅读时却困惑多多,了然无趣,这是由于缺少一座走进经典的"桥"。洞悉作者及作品风格,把握翻译及文本特征,是这座桥的两个"桥墩";以作品
本文首先就D类音频放大器的基本概念进行了一定的分析,然后简要的阐述了其系统结构,最后根据这些概念综合性的给出D类音频功率放大器的设计要素及解决方案,供相关人士做参考
<正>中纪委工作报告全文发布2019年1月11日至13日,中国共产党第十九届中央纪律检查委员会第三次全体会议在北京举行。全会审议通过了中央政治局常委、中央纪委书记赵乐际代表