改进不平衡数据分类算法研究及其在信贷违约预测中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:homemoons
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于传感器技术、通信技术、数据存储技术等的飞速发展,硬件软件的同步推进,各领域产生并存储了大量数据,数据的有效利用成为了研究与实践的热点,数据挖掘可以提取出数据中蕴含的重要信息,其中,分类是应用较为广泛的一种关键算法。但是,与理想情况背道而驰的是,现实中的数据往往存在着类别不平衡的问题,即属于某一类别的样本数量显著小于其他类别样本的数量且少数类的误分代价往往高于多数类,这挑战了传统分类技术的既定假设——各类别样本数量相当且误分代价相近,并直接导致了传统的分类技术在对不平衡数据进行处理时存在分类效果不佳,关键类别——少数类样本分类错误率过高的问题。因此,针对不平衡数据提出相应的处理办法有重大的理论和现实意义。本文针对不平衡数据集提出基于混合模型的处理办法,从数据整体布局入手,能够较好克服其他重采样方法所存在的模糊边界、合成样本质量不高等问题。本文可能的创新点有:第一,应用狄利克雷过程混合模型模拟多数类样本分布,将重采样算法思想与聚类结果相结合,在不破坏数据结构的前提下,根据高斯混合分布参数估计结果,对多数类样本进行欠采样处理,对少数类样本进行过采样处理,提出基于狄利克雷过程混合模型的混合采样算法。第二,将重采样思想与集成学习思想进行融合,提出基于混合模型的集成算法,首先基于狄利克雷过程混合模型拟合多数类样本的结构与分布,并且在不破坏数据结构的前提下对多数类样本进行欠采样,应用随机子空间思想与装袋算法思想,以期提升非平衡数据的分类效果。第三,将所述不平衡数据处理办法应用于信贷违约预测中,并结合信贷的业务特点,提出将经济学理论与统计学思想结合,在进行数据挖掘的同时,合理利用经济数据以期有效提高模型效率,据此提出启发式思考。数据分类过程的模拟结果表明,狄利克雷过程混合模型能够自适应地对数据进行聚类,有强大的描述数据分布的能力。算法性能测试的对比实验结果表明,改进算法有效地提升了对少数类样本的识别能力,并且在信贷数据中有较好的表现。
其他文献
“一网统管”是城市治理数字化转型的一项重要实践,也是数字政府建设的重要探索,其中城市运行平台是“一网统管”体系运行的重要载体和枢纽。当前在“一网统管”体系运行中基层城运平台出现了过载问题,如成本居高不下、事务处置量剧增、考核多头管理等,给基层城市运行平台和基层工作者带来前所未有的负荷和挑战,这需要从技术治理视阈,借助“情境-目标-结构”理论分析框架剖析基层城运平台过载的生成机理和深层逻辑,在此基础
期刊
口服给药仍然是最简单、最容易的给药途径,且固体口服剂型与其他类型的口服剂型相比具有许多优点,如高稳定性、体积较小、剂量准确、易于生产。药物口服后生物利用度低与其溶解度低和溶出速率小有关。固体分散体技术(SDs)简便易行且效果明显,在改善水难溶药物的溶解性和提高其生物利用度方面得到了广泛应用。DP-VPA是丙戊酸的磷脂前体药物,且在临床中丙戊酸被推荐作为抗精神病的辅助剂用于治疗精神分裂症。同时磷脂也
学位
目的 采用LPS诱导心肌炎小鼠动物模型和H9c2心肌细胞损伤模型,探讨杨梅苷(Myricetin,Myr)是否通过调节TLR4/mTOR通路来缓解LPS诱导的心肌炎症,为杨梅苷用于防治心肌炎提供实验和理论依据。方法 1.体内实验:以脂多糖(Lipopolysaccharide,LPS)诱导C57/BL6小鼠构建心肌炎动物模型。50只小鼠随机分为5组,每组10只。分别为对照组、模型组(LPS)、给药
学位
近年来基于高频数据对已实现协方差矩阵进行建模研究已成为协方差矩阵研究领域的重要方向,但是由于金融市场往往存在着明显的波动非对称性,为了对金融资产自身及金融资产之间的波动特征进行更为现实和准确的刻画,在已实现协方差矩阵的研究中有必要将波动非对称性纳入考察范围。由于此类问题的相关研究较为缺乏,本文试图构建基于波动非对称性的已实现协方差矩阵模型,以此考察不同形式的波动非对称性对已实现协方差矩阵建模的影响
学位
Logistic回归模型广泛应用于病例对照数据分析。但同其他参数模型一样,logistic回归模型也可能存在假定错误的情况,为了把这种情况识别出来,我们需要对参数模型的设定进行拟合优度检验。Qin和Zhang(1997)发现在病例对照数据下logistic回归模型等价于一类exponential tilting密度比模型,并结合经验似然方法提出了一种基于Kolmogorov-Smirnov(记为K
学位
考虑一个存在均值变点(跳点)的非参数回归模型,已有的文献大致可以分为侧重点不同的两类:一类主要关注变点位置的估计,另一类主要关注带跳曲线的拟合。本文提出了一种新的方法,可以使得变点估计和带跳曲线拟合同时进行。我们利用截断幂基多项式和阶梯函数对真实回归曲线进行逼近。在估计过程中,我们对截断幂基多项式中含有样条节点部分的回归系数以及阶梯函数的回归系数分别施加L2惩罚和L1惩罚,从而控制拟合曲线的光滑程
学位
AlGaN基紫外激光器(UV-LDs)在医疗诊断、生物检测、化学分析、非视距通信与高密度数据存储等诸多领域的应用都十分重要,与其他固体、气体激光器相比,更是具有高光束质量、高效率、低成本、体积小等优点。虽然有不少科研人员致力于推动其性能提升的研究,但是至今电泵浦AlGaN基紫外量子阱激光器的研究进展相对缓慢,晶体质量差、P型掺杂困难、载流子注入效率低、光限制问题等多方面难题阻碍向更短波长实现高性能
学位
目的 回顾性分析新生儿坏死性小肠结肠炎(necrotizing enterocolitis,NEC)患儿临床资料,筛选出独立危险因素及保护因素,构建模型,对NEC发生进行早期干预提供数据支持。方法 收集2018年7月—2021年7月温州市人民医院NICU新生儿科住院的符合标准的415例早产儿临床资料。对早产儿及产妇的临床资料进行单因素分析找出可能的危险因素。利用多因素logistic回归分析影响N
学位
风险是金融体系和金融活动基本属性之一,对投资者来说,从金融市场中获取收益的同时控制好损失的风险,是至关重要的。文章通过构建一个Copula函数下SRM模型,度量金融资产组合面临的潜在损失风险,建立满足投资决策的潜在损失风险达到最小值的条件时的资产权重优化问题。SRM模型摆脱了收益率服从正态分布的假设,且将投资者风险厌恶情绪纳入模型,相对于其他风险测度模型有很大的优势。但是SRM模型完全基于资产的历
学位
2009年4月,银监会印发了《关于中小商业银行分支机构市场准入政策的调整意见(试行)》,从政策上允许跨区域经营。但由于快速的扩张产生了许多的问题,近年来,银监会对城市商业银行的跨区域经营又有所限制。本文从城市商业银行的跨区域经营问题出发,收集整理了 132家城市商业银行2007年-2017年的数据,分别从扩张城市的选择和跨区域经营的异质性两个层面展开分析。首先手动整理了股东的地址信息,构建起“银行
学位