【摘 要】
:
随着我国经济的快速发展,信贷消费、个人贷款等业务在各类金融机构中所占的比重越来越大,信用消费方式在我国经济和人们日常生活中也得到了广泛应用。如何全面准确地分析和评估个体信用风险情况并依此进一步开展各种个性化金融服务,不仅成为了商业银行、小额贷款公司等传统金融机构进行信用风险管理和控制的一个重要核心环节,也成为P2P网贷等新兴的互联网金融机构所需要解决的一大痛点。通过对个人基本属性、借贷相关等信息分
论文部分内容阅读
随着我国经济的快速发展,信贷消费、个人贷款等业务在各类金融机构中所占的比重越来越大,信用消费方式在我国经济和人们日常生活中也得到了广泛应用。如何全面准确地分析和评估个体信用风险情况并依此进一步开展各种个性化金融服务,不仅成为了商业银行、小额贷款公司等传统金融机构进行信用风险管理和控制的一个重要核心环节,也成为P2P网贷等新兴的互联网金融机构所需要解决的一大痛点。通过对个人基本属性、借贷相关等信息分析,并利用机器学习方法来量化信用风险,对于解决个人信用风险问题具有重要的意义。本文数据爬取自网贷平台人人贷官网2016~2018年用户真实交易数据,通过对贷款人违约情况的分析,构建了一套基于模型融合方法的风控模型,来达到对违约用户的精准识别,对于解决个人信用风险问题具有一定的参考价值。文章介绍了本文将采用的机器学习分类算法:Logistic回归、SVM、决策树、随机森林、Adaboost、GBDT、XGboost,以及两种模型融合方法:Blending和Stacking;接着数据清洗过程中采用KNN方法对缺失数据进行了填补,并根据箱线图法排查异常值,由于此数据是一个非平衡数据,因此还采用了一种Borderline1-SMOTE算法对样本进行平衡处理;在探索性分析过程中发现贷款人的年龄、性别、学历、地区、行业、年利率、贷款用途、贷款金额以及平台给用户的初始信用评级等特征均对违约行为有一定的影响;特征工程部分首先对特征进行标准化、编码化处理,在特征筛选时先用IV值来初筛,将IV值小于0.02的特征予以剔除,然后利用相关系数图剔除掉相关性较大的特征中IV值较小的特征,最后用随机森林进行特征终筛,将重要性得分低于0.01的特征予以剔除;基于对本文业务场景的判断,本文选取了Precision、Recall、AUC、F2等指标作为本文的评价指标。在模型构建环节分别采用Logistic回归、SVM、随机森林、Ada Boost、GBDT以及XGBoost等机器学习算法构建了单模型的个人信用风险评估模型,依据在测试集上的表现情况,模型特点以及遵循模型多样性的互补原则,分别构建了两层的Blending和Stacking融合模型。经对比发现,模型融合方法在对违约用户的识别能力上相较单模型有了显著提升,且Stacking融合方法比Blending方法表现更优,接着采用学习曲线证实了融合模型良好的泛化性能,以及使用不同平衡比和PSI两种方法验证了融合模型的稳定性。由此可以得出结论,模型融合方法在集成了各个分类算法优点的基础上达到了提升的效果,在解决个人信用风险问题上有较大的应用价值。
其他文献
耐磨钢因其优良的性能广泛用于冶金机械、煤炭采运和交通运输等领域。一般多采用低合金成分设计、控制轧制、快速冷却、细晶强化和析出强化等手段降低材料成本,提升焊接性能。然而,在热轧连续冷却过程中,由于冷速较快会在材料内部引入残余应力,导致出现严重的平直度缺陷以及畸变问题,严重影响材料在后续的加工和使用。因此,如何降低残余应力是钢铁企业迫切需要解决的问题。现阶段连续冷却过程中带钢残余应力的研究是将相变过程
在电商等产业保持高速发展态势的同时,物流运输企业获得了巨大的发展契机,各种类型的物流企业出现在市场中,增大了整个市场的竞争压力。很多物流企业发展过程中忽略了客户关系管理的重要性,只是集中在扩大自身发展规模上,尽管在一定程度上能够提升竞争力,但是长期来看必然会限制自身的进一步发展,不利于提升市场份额。因此有必要对客户关系管理进行研究,将其中存在的缺陷及时总结归纳,并采取措施应对解决,提升客户关系管理
随着全球化程度加深,城市化进程加快,挖掘城市文化内涵,塑造差异化的城市视觉形象,成为提升城市综合竞争力的重要手段。武汉在经历新冠肺炎疫情的巨大冲击后,“英雄城市”的精神品格为城市视觉形象内涵增添新质,也迎来了武汉城市发展与推广的重要机遇。本课题以武汉城市文化为脉络,从武汉城市视觉符号角度切入研究武汉城市视觉形象,研究分六个章节展开论述。首先,通过对城市视觉形象的国内外研究现状的分析与总结,确定研究
目的:研究手传振动作业工效学因素对工人的危害情况,以及手传振动作业工人职业性肌肉骨骼疾患(WMSDs)的患病情况和主要危险因素,并探讨振动作业对工人职业心理行为的影响,为预防振动作业所致WMSDs的发生以及改善工人的职业心理与职业行为提供科学依据。方法:2021年5~8月期间以广东省某市20家工厂共384名作业工人作为研究对象,按是否从事振动作业分为振动组和对照组,振动组共229人,对照组共155
动物园是城市的重要组成部分,在动物自然保护、城市经济推动、科学研究发展、公众娱乐教育等多个方面发挥着不可小觑的作用。为了满足社会需求,提供更好的服务,我国诸多城市的动物园不断扩大规模、增加园内动物种类和数量,但是同时也存在动物保护不当、环境创设不优、科教功能不强等诸多问题。在这些问题中,因近些年动物园内动物伤人事件频发,安全管理问题受到社会的普遍关注。动物园安全管理问题也引起了一些学者的深入研究,
近年来,随着5G时代的到来,半导体制冷技术在电子消费、光通讯、医疗卫生、国防科技领域的应用越来越广泛,人们对于半导体制冷技术也有了更多的关注。Bi2Te3基热电器件是目前商业化应用最广泛的半导体制冷模块,但是国内外学者大多都致力于Bi2Te3基热电材料性能的研究,在Bi2Te3基热电器件应用稳定性上的研究相对滞后。热电器件的稳定性主要取决于电极材料与热电材料之间连接处的界面稳定性,通过在热电材料与
近年来,在日本本土学习汉语的人数增多,日本目前有汉语学习者200余万人。日本本土汉语教学总体可划分为六个方向:大学中文、大学公共外语、高中中文课、公众中文班、孔子学院和公共电视台电视授课。在日本,每年大约由16万人将中文选定为自己的第二语言来学习,汉语在日本的学生中颇受欢迎。因此,日本社会对汉语教材的需求缺口在不断扩大。为了占领汉语教材市场,日本各家出版社平均一年就会推出一种改版的汉语教材。作为学
有稿同传是同传的一种普遍表现形式,译员在译前准备阶段收到文稿进行准备,并在口译时以此为参照,在听到源语后立即输出译语。有稿同传过程中,译员涉及阅读精力分配、听辨精力分配、短时记忆精力分配、译语产出精力分配、协调精力分配这五个方面的精力分配。如果译员错误地将精力更多地分配给某个模块,那么可能造成其他模块的精力分配减少,导致译员的整体精力分配失衡,影响译语质量。本文以花王株式会社在GLOBIS商学院的
2020年春节爆发的新型冠状病毒疫情严重影响人们的生产生活,为了控制疫情,中央要求减少人员聚集,适当调整复工复产时间。在这一背景下,远程办公,信息技术的运用成为企业经营的态势,网络科技凸显优势。人们愈发意识到企业信息化管理的重要性,而财务共享中心正是企业数字化转型的重要环节,在疫情之后,更多企业将提升财务信息化管理的高度,以提高核心竞争力,助力企业成功运营。随着经济发展,企业规模日益扩大,传统分散
英语和汉语语篇衔接中的句子衔接方式存在差异,其中汉语多使用隐性连接方式而英语多使用显性连接方式。所以,在汉语中,逻辑连接词的使用频率理应少于英语。但是笔者在一次英汉交传模拟会议的译语中过多地使用了以及多次错误使用了逻辑连接词,本文针对逻辑连接词滥用的原因和解决办法进行了分析。此次模拟会议使用的会议材料为斯坦福人工智能研究院举办的主题为“新冠疫情与人工智能”的线上研讨会,会议语言为英语。源语共22分