不平衡数据的分类方法与应用研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:mtv138
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据的分类问题在实际的很多领域中经常出现,对于该类不平衡的数据集,由于类别间样本分布的非均衡性,经常导致模型在训练过程中不能学习到有效信息,致使模型的分类预测效果往往并不理想,且通常会偏向于多数类样本,对少数类样本难以识别。除了类别间的不平衡率,不平衡数据集复杂的结构特征也是影响模型分类效果的关键因素,例如类别重叠导致决策边界的难以确定、稀有样本与噪音样本的识别,以及类内不平衡等问题,尤其是当这些问题存在于少数类样本时,将会严重地影响到分类模型的整体性能。
  解决不平衡数据分类问题的主要方法包括数据预处理策略和算法研究策略,算法研究策略主要包括集成学习、代价敏感学习,以及单类学习等,主要结合某种分类算法对其进行适当的改进,加强对少数类样本的学习,提高整体的分类效果。相比较而言数据预处理策略的研究方法,由于对后续分类过程中的模型不做具体要求,因此具有更广泛的适应性。因此,如何使得不同类别样本间的分类效果都得到相应的改善,提高传统分类模型在不平衡数据分类中的性能表现,是目前不平衡数据研究领域中的关键问题。
  本文在深入探讨不平衡数据分类方法的基础上,围绕数据预处理的研究策略展开了一系列的研究工作,针对不同的数据不平衡问题研究相应的分类方法,本文的主要工作包括以下几个方面:
  (1)针对存在类别重叠的二分类不平衡数据集,将深度学习中的CGAN模型引入分类研究中,提出了基于CGAN模型的RECGAN重抽样方法。在对数据集进行结构特征分析的基础上,该方法主要包括对负类样本的欠抽样和对正类样本的过抽样。对负类样本中的噪音样本点进行移除,并采用k-近邻算法,结合样本结构特征分析中对样本性质的划分,对重叠区域的负类样本进行适当的欠抽样,以降低重叠区域负类样本的比重。基于训练的CGAN模型对正类样本进行过抽样,提高正类样本信息对模型分类效果的影响,克服了以往常用的过抽样方法均从样本点的局部邻域出发的缺陷。并利用支持向量机、逻辑回归、决策树及k-近邻四种分类器和F1值、AUC值两种评价标准,验证了RECGAN重抽样方法在具有类别重叠的不平衡数据分类中的优势。
  (2)针对样本量较少的二分类不平衡数据集,结合数据重组和密度聚类的方法,提出一种基于数据重组和欠抽样的S2SLDC方法。对于样本量较少的不平衡分类问题,由于样本数据表达不充分,使得模型不能有效学习到样本间的类别信息,尤其在不平衡率较高的情形下,使得模型对正类样本的识别效果较差。针对此问题,S2SLDC方法首先对负类样本进行密度聚类,将负类样本按其分布信息分解成多个子集,并基于负类样本的聚类结构对其进行欠抽样,抽取具有代表性的负类样本。其次利用抽取的部分负类样本,运用数据重组的思想对数据进行重新表示,不仅对数据集进行了有效的信息扩充,并且降低了数据集的不平衡率。实验结果表明模型的分类效果和运行效率均有明显提升。
  (3)在多类别的不平衡数据分类中,针对存在的类内不平衡问题,提出一种基于聚类的过抽样方法(COM)。COM过抽样方法的根本目的在于缓解少数类样本的类内不平衡对分类的影响,同时避免过抽样过程中容易引起的过泛化现象。首先基于样本的邻域结构特征,对少数类样本进行聚类分析。其次根据少数类样本的聚类结构分析,通过对密度较低的簇设置较高的抽样权重,而密度较高的簇给予较低的抽样权重,以保证那些较难分类的样本点,能够以更大的概率被抽中去合成样本,缓解类内不平衡对分类的影响。最后则根据簇的不同结构特点,对簇中的少数类样本点进行相应的过抽样处理。实验结果表明,在多类别的不平衡数据分类中,COM过抽样方法可以使分类器对任意两类的平均分类能力得到明显改善。
  (4)利用Lending Club平台提供的网络借贷数据,对P2P网络借贷违约预测模型进行了研究。通过对借贷用户违约行为的统计分析,从借款人收入、贷款目的、信用等级、就业年限等几个方面对借款人违约的潜在可能性进行描述。针对该网络借贷数据存在的高维不平衡和类别重叠的特点,将MIC的特征选择方法和RECGAN重抽样方法相结合,应用于网络信贷中违约预测的研究,一方面利用MIC方法从相关性和冗余性两个角度进行有效的特征选择;另一方面利用RECGAN重抽样方法对违约样本和未违约样本进行平衡性处理,缓解类别分布不平衡对分类预测的影响。结果表明该处理方法对网络信贷数据的违约预测有明显提高。
  本文分别针对具有类别重叠的不平衡问题、样本量较少的不平衡问题,以及多类别不平衡问题和P2P网络借贷违约预测进行了研究,并提出了相应的分类方法。以上研究成果对不平衡数据分类的研究具有一定的参考作用,有助于不平衡数据分类研究的进一步深入;同时也存在不足和有待提高的地方,例如针对具体领域的不平衡分类问题,结合相应的处理技术对所提方法进行改进和应用,深化所做的研究工作。
其他文献
信用风险缓释工具是我国独创的用来对冲信用风险的一种金融衍生品,类似的金融衍生品在国外被广泛使用。2016年9月23日,中国银行间交易商协会发布的《银行间市场信用风险缓释工具试点业务规则》完善了信用风险缓释工具的产品种类,标志着我国信用风险缓释工具的发展进入新阶段。目前关于我国信用风险缓释工具的研究大都还停留在理论定价分析和案例分析上,鲜有将其与模型结合研究它对金融风险的影响。根据国内学者的理论分析
近年来,随着互联网和大数据技术的不断发展,O2O作为一种将实体商店与网络营销、电子支付结合在一起的新兴电子商务模式开始涌现。然而,随着不断增多的竞争者加入O2O模式,企业吸引客户和保留客户变得日益困难。在线评价作为网络口碑传递的主要形式,在O2O模式的客户线下引流中扮演着重要角色。因此,一定数量的高质量在线评价对O2O电子商务模式的成功运转至关重要,如何激励消费者提供高质量在线评价也就成为影响O2
学位
我国的股指期货产品自2010年正式上市交易到2015年,交易量一直保持稳步上升态势,在2015年异常活跃,成交额达历史之最,同期沪深A股却出现“千股跌停”的惨状。这期间,为大众熟知的“伊世顿公司操纵期货市场案”的涉案人员通过高频交易赚取的总利润超亿元,令投资者叹为观止,同时也暴露出我国相关监管政策在股指期货这一新兴市场中的缺陷。监管机构经过调查和研究得出:股指期货交易在2015年股市暴跌中发挥了助
学位
近年来,人工智能技术发展迅猛,而股价走势具有较大的随机性和波动性,以及明显的非线性特点,机器学习和深度学习算法具有自动提取特征和学习能力强大的特点,非常适合处理股票价格等复杂数据。BP 神经网络算法在股价预测上具有较为成熟的应用,而 LSTM 作为一种时间递归神经网络,可以接受更广泛的时间序列输入,更适用于处理非线性时序信息,但在股市预测中的应用较少,因此对应用于股市预测领域有一定的探索和实践意义
改革开放以来,中国经济取得巨大的发展成就,但居民收入差距仍持高不下,2017年我国基尼系数为0.467,2008-2017年我国基尼系数维持在国际警戒线0.4以上,其中城乡收入差距对中国居民收入差距贡献最大,影响社会的和谐稳定。我国目前处于城镇化快速发展时期,城镇化作为影响城乡收入的重要因素而受到关注。很多国内外学者和专家对城镇化的测度进行了详细研究,有的学者认为人口城镇化率可以很好反映城镇化水平
“这项研究基于FDI,HDI和FR对南亚国家经济进步的确定和结果,利用2000年至2018年的董事会信息,该调查计划旨在打破FDI,FR和HDI与经济进步之间的联系。研究涵盖了时间跨度为2001-2018年,因为世界银行和WDI被认为是沿着这些方向发展的真正信息分类的源泉,所以从这一可靠的来源收集了有关参考因素的辅助信息,结果表明FDI与人力资本发展指数一起流入外国直接投资在大国特别是新兴国家中,
学位
本论文旨在研究巴基斯坦政治区制的改变对石油价格波动和生产者价格指数的影响。本文基于考察期内巴基斯坦19年的相关数据,首先运用相关分析和回归分析等统计手段分析了变量之间存在的数量关系和特征,进一步使用GARCH模型进行了相关预测。结论证实了国际政治对石油价格波动具有非常关键的影响,油价波动对宏观经济变量,如工资,CPI指数,购买意愿和实际支付,预算赤字和经济拉动,通货膨胀率以及其他宏观经济因素都有显
学位
改革开放40余年,非国有企业吸纳农业劳动力,推动着我国二元经济结构转化,使我国城市化率由1978年的17.98%提高到2019年的60.6%。但我国农业与非农业部门仍存在较大生产率差距,且相对于所处的经济发展阶段,农业劳动力比重偏高,在迈向高收入国家行列的过程中,仍需继续转移农业劳动力、推动二元经济结构向现代一元经济转化,但非国有企业出现了用工难、劳动者积极性不高、质量意识与工匠精神缺乏,生产的产
家庭等值规模是将不同人口结构的家庭实际人口规模转换为以一定参照家庭为基准的标准化家庭人口规模。家庭等值规模充分考虑不同家庭成员的消费异质性和家庭规模经济效应,赋予不同类型的家庭成员以不同的标准化值,是用来解释不同类型的家庭成员为达到相同的消费水平所需的相对金额的预算平减指数。家庭等值规模在国际上被广泛用于不平等、贫困以及家庭福利的测度研究中,包括OECD成员国以及欧盟成员国的多数发达国家将家庭等值
当前中国农业劳动力转移面临的主要问题是,工资这一单一因素吸引其转移的难度越来越大,转移的农业劳动力永久性迁移意愿较低。其主要原因是伴随农业劳动力数量的逐渐减少以及转移过程中呈现出的新特点,农业劳动力所关注的因素已经从单一工资维度转向了就业质量维度,低质量就业问题成为农业劳动力不愿进行乡城转移及永久性迁移的重要原因,只有提高就业质量才能实现农业劳动力的持续、高质量转移。这是新形势下人民日益增长的美好