基于Stacking集成的信用卡违约分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dingyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决信用卡违约风险预警存在的违约用户识别不足问题,本文构建了基于Stacking集成的信用卡违约分类模型,能够帮助银行提前识别和预判违约用户。针对现有算法特征代价敏感随机森林(FCS-RF)和双重代价敏感森林(DCS-RF)中的缺陷,提出了改进版代价敏感随机森林的分类算法。其中包括在特征选择阶段利用随机森林的袋外数据和G-mean值生成代价矩阵并引入到属性分裂的计算中;在集成投票阶段筛掉表现较差的树,通过袋外数据测试得到分类阈值,使得模型在不破坏随机性的同时更具有倾向性,减少了模型运行的时间复杂度。对自适应提升算法(Ada Boost)的代价敏感改良算法Adacost进行优化,在非违约用户的误判和正确判别仍按照原始权值公式更新权值的前提下,只对违约用户的误判赋予较大的代价值。通过将损失函数自定义为焦点损失函数,令极端梯度提升算法(XGBoost)模型在迭代过程中关注于区分困难样本的同时更关注于识别少数类样本,生成对违约客户识别准确率更高的基分类器,迭代过程中模型朝着对少数类识别更敏感的方向学习。集成投票阶段,建立一种基于Stacking的多分类器组合的新型银行信用卡客户违约分类模型,采用多种数据处理方法平衡样本,通过多种渠道改进模型,经过实验对比,发现数据和算法共同改进训练的集成模型具有更加准确的预测结果。将以上改进思想应用到信用卡用户数据集上,一阶段数据级方法的应用使得召回率变大,对于违约客户的识别率有明显提升;二阶段代价敏感的加入,得到新的预测效果更优的违约预测模型,召回率较之原模型分别有17.8%,26.1%,21.7%的提升,G-mean值分别有10.3%,6.4%,12.4%的提升,F-score也都有所增加,较之原始模型具有更好的分类效果;三阶段建立一种新型银行信用卡客户违约预测的多分类器组合模型,召回率最终达到了0.632,G-mean提升到0.706,通过实验对比,数据和算法共同改进训练的集成模型具有更加准确的预测结果,并且对违约客户识别效果更好。
其他文献
自20世纪以来,对外直接投资(outward foreign direct investment,OFDI)一直是全球化生产重要展开途径之一。近年来中国的对外投资政策转变为“引进来”和“走出去”并重,OFDI占世界的比重持续增长。2020年,中国OFDI流量首次位列世界第一,高达1537.1亿美元;存量高达25806.6亿美元,占全球比重为6.6%。一国经济发展的长期动能是技术水平的提升,这种提升
学位
近年来,随着我国改革开放战略的推进,国际直接投资的重要意义也日渐凸显,成为了国际产业转移的重要路径。据有关资料表明,我国2020年实际使用FDI金额10000亿元,对外直接投资额达9169.7亿元,呈高速增长趋势,我国已成为世界投资大国。由于目前的中国正处在从经济高速度发展向高品质发展的关键时期,面临经济增速放缓等现实问题,产业结构作为经济高质量发展的重要推手,加快经济发展方式和产业调整迫在眉睫。
学位
在金融一体化的背景下,各个国家金融市场之间的依赖和联系越来越深,这将不可避免地带来更大的金融风险,对各国金融安全构成巨大挑战。因此,进行金融风险管理是很有必要的。如何衡量金融风险的大小是进行金融风险管理的关键,风险度量的准确度直接关系到开展风险管理的可信度。风险价值(VaR)方法作为主流的金融风险度量方法,其测度方法也成为研究的热点。找到一个合适的方法提高VaR测度精度,将有助于提高风险管理水平,
学位
当前信息技术的迅猛发展为人们提供了丰富和多样化的数据表达形式。其中,成分数据是一类反映综合系统中不同单元占比情形的相对数据,能够揭示事物中的相对信息,对系统内部结构的关联性、差异性做分析。但成分数据的“定和”性质给传统模型的预测带来一定的困扰,特别面对具有小样本、贫信息特征的数据,预测困难进一步加剧。面对模糊性、不确定性问题,模糊集合论被提出,相比于传统的时间序列模型,模糊时间序列对于数据量及数据
学位
近年来,我国工业蓬勃发展,工业增加值连续多年位列全球首位,工业成为支撑我国实体经济增长的核心产业,但其发展过程中存在一些问题。传统的高投入、高消耗、高排放的“三高”低附加值工业发展模式对我国生态环境造成了巨大的损伤,成为了束缚我国追求经济可持续发展、提升产业国际竞争力的障碍。因此,在资源环境承载力有限的制约下,如何推动工业走环境友好型的稳定增长道路,即提高工业绿色经济效率成为了我国当前经济发展面临
学位
新冠疫情肆虐全球、世界各国的经济下行、逆全球化与贸易保护主义思潮抬头等现实情况都给当下的国际贸易带来极大的冲击。在这样的时代背景下,基于互联网等新兴数字技术产生的新型经济形态——数字经济,却表现出蓬勃发展的态势,成为驱动经济复苏的强大动力。因此,本文以数字经济作为研究对象,使用多种计量模型探究2011-2019年长江经济带沿线11个省市的数字经济对外贸高质量发展的影响及具体的影响机制,在理论与实证
学位
<正>2023年6月14日,西班牙橄榄油行业组织的推广品牌西班牙橄榄油(Olive Oils from Spain)在北京举办了主题为“西班牙橄榄油你的新时尚”的媒体推介会,让中国消费者深度体验高品质的西班牙橄榄油,进一步展现西班牙橄榄油在烹饪中的无限可能。
期刊
现阶段我国的商品出口额在国际市场中位列首位,据中国统计年鉴的数据显示,我国在2021年商品对外出口数额为21.73万亿元,同比增长21.2%。但我国出口贸易在快速发展的同时,其局限性也日益显现,出口商品附加值较低、科技含量不高、利润创造能力有限,整体呈现大而不强的局面,这已严重阻碍了我国从世界大国向世界强国的转变。随着我国进入高质量发展阶段,科技进步已成为促进我国经济发展的关键,高技术产业由于技术
学位
长江经济带囊括11省市,所占面积约为205万平方公里,同时该区域的人口数量和生产总值均超过全国的40%,是中国的国家重要战略发展区域。与此同时,由于长江经济带中各地区之间的各种生产要素等方面存在一定程度的差距,因此长江经济带各地区的发展存在不平衡的现象。其中,长江经济带共包含8个连片特困地区,地理位置偏远、环境恶劣、基础设施薄弱、少数民族聚集,所占的连片特困地区是中国现有集中连片特困地区的50%以
学位
解决我国收入差距扩大、社会阶级固化等问题,构建更加公平合理化的收入分配体系,首要任务就是降低不合理的不平等对我国收入不平等的影响。本研究以机会不平等为切入点,采用2015-2017年中国综合社会调查(CGSS)数据,基于“环境——努力”二元理论分析框架,区分环境因素和努力因素对我国收入的影响。首先,运用条件推断树方法,识别出环境因素对不同出生年代的个体收入不平等的影响路径;然后基于条件推断树研究基
学位