基于机器学习算法的公积金贷款逾期预测

来源 :南开大学 | 被引量 : 0次 | 上传用户:yzl1983523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济的发展和公积金制度的不断完善,人们使用公积金贷款购房的需求日益增加,银行的相关信贷业务也发展迅速。公积金贷款事关重大民生问题,要保持其健康平稳发展,就必须正视制度运作过程中的潜在风险,并给出积极应对,其中重要的一环是能有效评估贷款客户的资质。因此,亟需建立高效准确的模型,对客户的贷款逾期风险进行预测,并为银行的信用评估提供参考,实现风险规避。本文主要以山东省某银行的真实脱敏数据为例,建立公积金贷款逾期的预测模型。首先对原始数据集进行数据清洗和预处理,然后通过相关性分析剔除强相关变量。基于实际业务情况、数据分箱技术和统计量特征进行特征组合,扩充原数据集得到多个新特征。使用xgboost树模型方法进行特征选择,剔除新生成的冗余特征。再对数据做标准化处理和one-hot编码,为后续建模做准备。由于本文数据集的不平衡性会导致传统分类器失效,对多个模型分别选择最优数据采样比例、方法,实现数据平衡。在模型选择方面,本文采用包括Logistic回归、支持向量机以及集成学习模型随机森林和Light GBM的单一模型,并建立Logistic回归+随机森林的两阶段组合模型。根据2(80)、AUC值和MCC作出模型评估,选择最优模型进行逾期行为预测。研究发现,特征组合和数据平衡能有效提升各模型的分类性能,单一模型中Logistic回归表现出对少数类样本的较高预测精度,但整体预测能力一般;支持向量机模型表现一般;随机森林和Light GBM对不同类别均有较高的预测精度;组合模型能够结合两个基础单一模型的优势。最终本文选择随机森林模型用于贷款逾期预测,并给出逾期用户的特点以作参考。
其他文献
近年来,钙钛矿发光材料由于其超高的色纯度、发光颜色可调、高的光致发光量子效率(PLQY)和在室温下简单的溶液可加工性而备受关注,被誉为下一代显示技术的半导体材料。与有机-无机钙钛矿材料相比,全无机钙钛矿纳米晶体材料显示出更优异的稳定性,有望在发光二极管(LED)和背光源显示器中得到广泛应用。过去几年中,尽管全无机钙钛矿纳米晶的制备和应用取得了较大的进步,但仍然存在一些极具挑战性的问题亟待解决,如量
高能激光在国防、工业等领域开始得到越来越广泛的应用,受到一些因素的影响,单束激光输出功率受到限制,而激光光束合成技术可以实现高功率激光输出。其中,激光主动相干合成技术具有系统扩展性强、合成效率高的优点。实现对激光相位的控制是主动相干合成技术的关键。论文以相位控制技术为根本,开展了多路激光主动相干合成技术研究,主要内容如下:首先,论文梳理了激光相干合成的基本理论。通过对主动相位控制算法——随机并行梯
视频监控是现代楼宇中必不可少的安全设施,目前还是以简单拍摄视频为主,出现突发情况时,调用监控录像进行人工查看与取证。此方式存在较大的时间滞后,已难以满足实际需求。面向楼宇监控的人脸识别系统,旨在现有监控网络改动较小的基础上,开发人脸识别、黑名单报警和行人行踪轨迹绘制等功能,提高监控网络的时效性,为楼宇安保工作提供更多保障与支持。本文主要工作包括系统整体结构设计、视频监控中人脸检测、抓拍和识别算法的
随着信息科技的的迅速发展,频谱资源紧张的问题日益凸显,对电磁环境进行多维认知是进行电磁频谱管理和提高电磁频谱资源整体利用率的基础。多维频谱态势感知与生成是电磁环境认知中的关键技术之一。本文研究电磁环境频谱态势感知与生成的关键技术。第一章介绍论文的研究背景及意义,概括了本文的研究内容及结构安排。第二章首先总结电磁环境的关键构成要素,给出基于本体模型的电磁环境知识图谱构建方法,用于构建电磁环境知识图谱
数据发生器因其可以输出复杂的数字激励信号而在电子信息行业中得到越来越广泛的应用。随着数据接口类型的多样化,具有能够兼容不同数据接口类型能力的通用数据发生模块成为研究重点。本文通过对不同DAC的数据接口类型、数据传输速率以及数据位宽进行调研统计,设计了一款能够兼容CMOS、LVDS和JESD204B接口DAC的通用数据发生模块。具体工作内容为:1、总体方案设计。通过对不同DAC的CMOS、LVDS和
随着社会的发展和我国经济结构的优化调整,当前中国经济正逐步从投资驱动转向创新驱动。为鼓励科技创新企业发展,2018年11月习近平总书记宣布在上海证券交易所设立科创板并试点注册制,设立科创板是落实创新驱动和科技强国战略的重要安排,也给创新药企业发展带来了新机遇。此外,2020年初新冠病毒的爆发短期内也将会对医药创新行业起到提升作用。在这样科技创新企业备受关注的市场环境下,创新药企业要想实现稳步发展,
在化学研究中,对碳氢化合物定义某些指标可以简便且直观地反映一些重要的物理化学性质.Randic指标就是这样一种指标.研究Randic指标的极值问题不仅在数学上有着重要的意义,而且对相关的化学研究也有很大作用和影响. 本文主要讨论树图的广义Randic指标的最大化问题.简单图G的广义Randic指标R-α(G)则定义为所有边uv的权重(d(u)d(v))-α之和,α是任意实数,d(u)表示
我国的“营改增”政策是2012年开始实施的,经过几轮试点,对产业结构调整的效应正在逐步显现,大部分行业展现出了向好势头。建筑业作为我国支柱产业之一,由于施工时间较长,资金周转速度较慢,增值税链条尚不完善等原因,对税改表现出了明显的“不适应”,税负不降反升,个别企业甚至出现了经营困难的情况,其中以中小型建筑企业问题最为突出。中小型建筑企业进入门槛较低,从业人数众多,公司资质参差不齐,随着市场日趋成熟
目的 探讨2型糖尿病患者颈动脉内-中膜厚度(IMT)增厚的危险因素,为临床预防提供参考。方法 选取甘肃省康复中心医院就诊的466例患者为研究对象,其中113例2型糖尿病,根据是否发生IMT增厚将2型糖尿病患者分为正常组、增厚组和斑块形成组,分析影响2型糖尿病患者IMT增厚的相关因素。结果 与正常组相比,增厚组患者的平均IMT、年龄、空腹血糖、C-反应蛋白、总胆固醇、低密度脂蛋白胆固醇、肌酐均显著偏
随着经济的发展和市场化进程的不断推进,高校面临的压力越来越大。过去,由于高校非营利的社会性质以及成本由政府分担的特性使得高校缺乏成本控制的动力。事实上,无论是对于高校还是整个社会来说,资源总量都是有限的,如果把有限的资源使用在无关紧要的事情上,那么就浪费了资源存在的真正价值。而高校要想提高自身的核心竞争力,就应该聚焦问题,加强成本控制,合理利用资源。唯有如此,才能促进高校的进步与发展,实现资源的合