【摘 要】
:
信用违约数据是一种非平衡数据集,其中违约用户数量会明显少于正常用户,并且将违约用户判断为正常用户的损失往往更高.主要从下面三个角度出发来研究非平衡数据分类问题:数据重采样、特征提取、分类算法改造.本文将从以下两个方面,研究如何提高分类器对于非平衡数据集的分类准确性:1)在数据重采样方面,本文提出了一种新的样本生成算法-变分自编码器VAE,这是一种深度学习算法,通过学习训练集中样本的分布信息,产生新
论文部分内容阅读
信用违约数据是一种非平衡数据集,其中违约用户数量会明显少于正常用户,并且将违约用户判断为正常用户的损失往往更高.主要从下面三个角度出发来研究非平衡数据分类问题:数据重采样、特征提取、分类算法改造.本文将从以下两个方面,研究如何提高分类器对于非平衡数据集的分类准确性:1)在数据重采样方面,本文提出了一种新的样本生成算法-变分自编码器VAE,这是一种深度学习算法,通过学习训练集中样本的分布信息,产生新的样本点.并通过数值实验,验证了此算法相对于线性插值的SMOTE算法能明显提高模型的分类准确性.2)从分类算法方面,本文从代价敏感损失函数入手,研究满足贝叶斯最优决策条件的损失函数的代价敏感改造准则,提出了分类代价在损失函数内部的指数损失AdaBoost算法,并通过与AdaBoost算法和AsyB-out算法进行实验对比,得到了 AsyB-in算法能在一定程度上提高分类器性能的结论.
其他文献
自19世纪德国数学家August F.M(?)bius[29]引入了平面中的M(?)bius变换以来,在复分析中关于M(?)bius变换的性质和相关定理一直是重要的研究方向之一,并且在一个多世纪的发展过程中得到了很多重要的结论.相对于复数C,Yaglom[41]的提出了经典复数的推广――分离复数R1,1,随后吸引了许多数学家对分离复数中相关问题的关注,但是有关分离复数中M(?)bius变换的性质和
卷积神经网络近年来应用广泛,目前很多图像分类任务的最好成绩都是通过卷积神经网络取得。本文研究重点为卷积神经网络中的池化层。池化层对于提升网络的性能具有重要意义,且除了能应用在卷积神经网络中,还可以应用于深度学习中的其他网络结构。传统的池化方式为最大池化和均值池化,但是这两种方法对于激活值的多样性和显著性不能达到一个很好的平衡,并且会在池化过程中造成信息的损失。基于此有许多改进的池化方法被提出。这些
Black和Scholes在1973年创立的Black-Scholes期权定价模型是当代金融理论里最为重要的成果之一,但由于该模型存在特定的假设条件,因此在一些情况下得到的金融市场理论价格与实际并不相符,在应用中有很多局限。研究表明,如果将Black-Scholes模型应用于违约概率估计,考虑标的资产S为公司的价值,对公司债u(t,S)进行定价,必须考虑漂移率μ和无风险利率r之间存在称为风险溢价的
矩阵特征值问题Ax=λx不仅在各类理论研究中起到关键作用,也在实际应用领域中有所涉及。其中Krylov子空间方法如Arnoldi算法、完全正交算法(FOM)、广义极小残量算法(GMRES)等都广泛应用于数值分析的各个领域中。作为降维投影方法,Krylov子空间计算量较小且效果较精确。但它依旧存在着损失正交性,难以应对密集或者多重特征值,效果依赖于初始矩阵,残差下降出现停滞或者震荡等问题。在多数的改
镁铝金属具有密度小、强度高以及耐腐性等特点,使用范围非常广泛,同时,激光焊接作为新的焊接技术得到了大量的使用,因此,产生了镁铝焊接粉尘,该类粉尘具有发生粉尘爆炸的可能性,但关于该类粉尘的爆炸特性研究较少,若处理不善很可能发生粉尘爆炸事故,因此,对镁铝激光焊接粉尘爆炸特性的研究和采取预防措施是必要的。运用20L球形爆炸测试装置、Godbert-Greenwald炉、MIE-Ⅲ型最小点火能测试装置、粉
甘薯(Ipomoea batatas L.)是旋花科番薯属藤本植物,是世界第六大粮食作物,在世界范围内广泛种植,其具有高产、稳产、耐贫瘠和易于管理的特点,营养价值高,是国家粮食安全的重要保障,也是重要的淀粉工业原材料,保障其稳产、高产和优质一直是生物学家的重要课题。储藏根是甘薯最具经济价值的重要器官,也是构成甘薯产量的重要农艺性状,其形成和发育膨大是由内因和外因共同协同调控的复杂生物学过程,涉及基
伴随着经济全球化的发展趋势,传统的第三方物流越来越无法满足跨区域服务的要求,而第四方物流可以通过对各方资源的整合提出有效的供应链解决方案,着力发展第四方物流是社会经济发展的必然趋势,合理的物流网络设计对第四方物流的有效运作具有战略意义。在社会高速发展的今天,人们对物流的服务水平提出了更高的要求,不仅要求需求能够被满足,更看重物流运作的效率,如何提高客户对物流的时间满意度成为亟待解决的问题。因此,考
本文研究了一类具有时滞的Cohen-Grossberg神经网络的有限时间和固定时间同步问题。基于驱动-响应系统模型,本文提出了一种新的控制策略——只依赖于系统的当前时刻的状态,而与时滞及系统的延迟状态完全无关,通过严密的分析证明了此类时滞系统在一定条件下能达到有限时间同步或者固定时间同步。事实上,在时滞有界情况下,我们先将系统的初始误差进行分类,当此误差的各分量的绝对值很大时,证明了它将在有限时间
本文考虑了一个分布参数只能通过有限样本观测到的两阶段随机规划问题.在随机规划领域,以Wasserstein距离为基础的分布式鲁棒优化方法已经被广泛应用.这种方法根据某种类型的Wasserstein距离,构造一个以某种分布(通常是经验分布)为中心的Wasserstein不确定集,然后在Wasserstein不确定集中包含的最差分布下寻求最佳决策.本文希望将椭球分布作为Wasserstein球的中心分
对非奇异系统的最优控制问题人们做了大量的研究,并在实际工作中得到广泛应用.然而人们发现在实际工程系统中,并不是所有系统都是非奇异系统,往往出现更多的是奇异系统,并且讨论的多是稳定和渐近稳定系统的最优控制,这就使得现有的理论难以付诸于应用.因此,有必要讨论半稳定性奇异系统的最优控制问题.本文将讨论奇异系统的半稳定性及其控制问题,采用的方法是将奇异系统分解成两个系统,一个是快系统一个是慢系统,从快系统