一种基于GMM-EM的非平衡数据集概率算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:whjsdsdsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集的分类问题是机器学习领域重要的研究课题。一般地,少数类样本在数量上比多数类样本少且空间分布不均匀,但信息价值却高于多数类。为此,在处理非平衡数据集的分类问题时,已有的分类算法是基于样本空间分布均匀的前提下平衡数据集,导致少数类样本更易错分。因此,有效地处理非平衡数据集的分类问题是信息化时代的热点问题。虽然现有算法在类别样本数量上做到平衡的基础上也考虑了数据集的空间分布特点,但并无考虑到数据集本身的统计特征;同时,在生成新样本时基本采用随机生成法,导致新生成的样本质量较差,从而降低了少数类的分类精度。针对这两个问题,本文从数据统计特征和提高新样本的质量两个角度对非平衡数据集进行研究,提出了概率增强算法和均值翻转算法,并验证了两种算法分类的有效性。本文的主要研究内容如下:(1)概率增强算法:该算法先利用GMM获取高斯型少数类数据集,并通过EM算法获得了少数类数据集的概率密度函数;然后,根据高概率密度的样本优先生成新样本的性质,对少数类进行过采样,从而平衡数据集。为了提高新生成样本的质量,本文设计了新的计算方法来避免新样本出现交叉或者重叠的现象;最后,C4.5决策树被用来对平衡后的数据集进行训练,使模型得到更好的分类效果。通过在UCI和KEEL数据库上的数据集将概率增强算法与“SMOTE家族”,ADASYN算法进行实验对比,实验结果显示了新算法在分类性能上的有效性。(2)均值翻转算法:该算法亦先通过GMM-EM获取少数类样本的概率密度函数;然后,依概率密度函数均值非对称分布的现象,将少数类划为左缺失数据和右缺失数据,并由概率密度均值对称性原理生成新的少数类样本,并使用3σ原则筛选新样本,从而使类别达到平衡。如果类别仍未达到平衡,可利用概率增强算法再平衡;最后,将平衡后的数据集使用C4.5决策树进行训练,使模型得到更好的分类效果。从UCI和KEEL数据库上的数据集将均值翻转算法与“SMOTE家族”,ADASYN算法进行实验对比,实验结果显示了新算法在分类性能上的有效性。
其他文献
本文基于ABAQUS有限元分析软件,以大跨空间凯威特网壳结构为研究对象,首先考虑几何和材料双重非线性,深入分析了该结构类型在静载作用下的屈曲行为以及在不同杆件截面强度、
频率是整个电网安全运行的重要参数之一。当系统发生较大故障后,系统中大容量机组脱落,可能造成系统较大的功率缺额,严重时将会导致整个系统频率失稳。因此系统频率的在线监
近年来,航运经济回暖,港口吞吐量逐年攀升,进出港船舶数量增加,船舶不断朝着大型化发展。这也使得港口水域的交通情况日趋复杂,以船舶交通流数据的数理统计及建模分析为基础
由于铁路集装箱运输具有降低货损,降低货运成本,完善“门到门”运输等优点,铁路货物集装化运输成为我国铁路货运发展的必然趋势。而铁路集装箱中心站是铁路集装箱运输的重要
红砂岩风化土具有遇水崩解、强度弱化、级配改变等特点。在降雨与蒸发的双重作用下,自然界中的红砂岩风化土常处于干湿交替状态,易导致土体的强度降低和变形增大,进而对自然
随着三维技术的快速发展,三维模型在多个领域得到广泛应用,相关算法已成为各领域的研究热点。三角网格表示简单、易于计算机存储和处理、具有较好的硬件支持,是目前三维模型
能源问题是21世纪人类所面临的一个巨大挑战。目前人类社会主要依赖的能源物质化石燃料需要几百万年的时间才能形成,属于不可再生资源。化石燃料的燃烧导致了二氧化碳、氮氧
菜粉蝶Pieris rapae属于鳞翅目Lepidoptera粉蝶科Pieridae粉蝶属Pieris,它在世界各地均有分布,在国内也是广泛分布。菜粉蝶的幼虫被称为菜青虫,寄主植物众多,是危害白菜、芥
麦积山位于甘肃省天水市东南,距市区约45公里,地处秦岭山脉西延部分北侧。麦积山石窟始建于后秦,直接开凿在麦积山南侧的垂直崖体之上,至今已有1500年以上的历史。麦积山石窟
2018年,我国新颁布的《中华人民共和国个人所得税法》对我国现行的个税制度做了较大范围的改革。在这次改革中,除了包括对于一部分劳动性所得采取综合征收、对于税率结构的优