【摘 要】
:
在实际的数据分类任务中,经常面临数据类别分布不均衡的问题,具体表现为属于某一类的样本数远超过另一类。若直接使用分类器对不均衡数据进行学习,会引发分类结果向多数类偏置。因此,研究不均衡数据处理方法受到国内外广泛重视。不均衡数据处理方法大致可分为算法层方法、特征层方法和数据层方法。数据层不均衡数据处理方法通过调整样本数量实现数据均衡化,在不均衡数据处理中应用广泛。传统的采样方法中插值具有盲目性,无法在
论文部分内容阅读
在实际的数据分类任务中,经常面临数据类别分布不均衡的问题,具体表现为属于某一类的样本数远超过另一类。若直接使用分类器对不均衡数据进行学习,会引发分类结果向多数类偏置。因此,研究不均衡数据处理方法受到国内外广泛重视。不均衡数据处理方法大致可分为算法层方法、特征层方法和数据层方法。数据层不均衡数据处理方法通过调整样本数量实现数据均衡化,在不均衡数据处理中应用广泛。传统的采样方法中插值具有盲目性,无法在插值时维持分布的稳定,然而数据样本的空间分布信息与分类模型的精度息息相关,对不均衡数据进行欠(过)采样而不考虑维持样本的原始分布信息将会造成噪声点增多、分类边界破坏等问题。本文提出两种数据分布驱动的不均衡数据综合采样法,分别针对高维不均衡数据集和具有任意复杂稀疏分布的不均衡数据集进行处理。通过建模学习样本的空间分布特性,依据其分布特性对不均衡数据集进行约束化采样,从而能在维持样本分布特性的基础上完成对不均衡数据的处理,有效提升分类器性能。论文主要贡献总结如下:(1)提出一种基于谱聚类的不均衡数据过采样法(Spectral cluster ing-based adaptive synthetic sampling,SCbADASYN)。通过谱聚类挖掘少数类样本的内部结构(聚类簇结构特性)对其进行自适应过采样,以获得样本分布结构特性保持的均衡数据样本。SCbADASYN引入了谱聚类所蕴含的数据降维思想,能在获得高维少数类不均衡数据集的空间分布特性的基础上进行自适应样本插值,有效解决高维数据分布不均衡所带来的分类偏向问题,提高了传统分类器精度。(2)提出一种基于贝叶斯变分推断高斯混合模型的自适应采样法(Variation Bayesian Gaussian mixture model-based adaptive synthetic sampling,VBGMM-Sampling)。将变分推断引入到高斯混合模型学习中,实现模型高斯分量的优化求解。VBGMM-Sampling能有效获得任意未知分布下少数类样本的空间分布特性,解决传统的聚类方法需要人为假定其分类簇数量的问题。该方法采用最优化高斯混合模型进行样本分布特性学习与自适应过采样,并引入tomek-link对所有样本进行均衡化清洗,理论上能处理具有任意复杂分布特性的不均衡数据集,获得分布结构特性保持、不破坏多数类少数类分类边界的均衡样本,利于分类器性能提升。(3)结合数值仿真数据、UCI公共不均衡数据、真实网络入侵数据(NSL-KDD和KDD99)以及信用卡欺诈数据进行大量实验。数值仿真结果表明数据驱动采样可有效维持分布、提高分类准确率。实验结果表明:SCbADASYN能有效提升分类器在不均衡集上的分类能力。信用卡欺诈检测实验表明将VBGMM-Sampling与传统分类器相结合用于极度不均衡的信用卡欺诈检测处理能取得优异的识别性能,表明所提方法具有推广应用潜力。
其他文献
支持向量机(Support vector machine,SVM)算法发展至今,已经成为机器学习领域内的经典算法。SVM主要有以下几个显著优点:首先,以统计学习理论为基础,运用结构风险最小化原则克服过拟合问题,从而有效提高了算法的鲁棒性。其次,通过引入核函数来解决因数据映射到高维特征空间产生的维数灾难问题。最后,为了避免在求解的过程中陷入局部最优,通过解一个凸二次规划问题得到全局最优解。SVM目前
随着技术与交通的不断协同发展,带动着城市物流的快速发展,这也使得城市内的交通拥堵及环境污染问题越来越严重。为减少城市配送给城市环境带来的压力,大力在物流行业中推广排放少、能耗小的纯电动汽车,成为热潮。但纯电动汽车的电池技术、服务设施等都还在不断发展完善中,使得纯电动汽车在城市配送环节应用还存在不少问题,如效率低、成本高等。同时面临不断注重服务质量的用户需求激增,企业需要思考如何将运营效率提高、成本
温度胁迫是非生物胁迫中常见的一类,不管是低温胁迫还是高温胁迫,最终都会影响作物的产量和质量,从而造成巨大经济损失。抗冻蛋白(Antifreeze protein,AFP)是一类具有提高生物抗冻能力的蛋白质类化合物。前期研究发现,异源表达矮沙冬青(Ammopiptanthus nanus)抗冻蛋白基因(AnAFP)可提高大肠杆菌、烟草和玉米的抗寒性。氨基酸序列比对表明,矮沙冬青抗冻蛋白AnAFP的氨
物种之间的自然杂交事件在植物当中是一种比较常见的现象,它广泛参与了植物类群的分化,是物种多样性形成和维持的重要机制。在小麦族植物中,不同属间、种间的自然杂交也时常发生。本研究基于对四川红原地区发现的57份鹅观草属自然杂种的形态学、细胞遗传学分析的基础上,利用细胞核基因DMC1和叶绿体基因rps16对其中20份自然杂种与其可能的亲本供体川西肃草(Roegneria stricta)和林西直穗鹅观草(
米糠油在国内来源广,产量大,但目前米糠油存在着利用率不高,集约化生产不高的问题,制约着米糠油的进一步利用,因而合理使用米糠油有助于米糠油的消费。基于此,本文拟通过两个试验,首先研究米糠油的氧化规律,其次研究米糠油和加热米糠油对肉鸭生产性能、肠道健康和肉品质的影响,为米糠油的应用及在肉鸭养殖生产中的合理利用提供基础数据和理论依据。试验一不同温度条件下米糠油的氧化酸败规律研究本试验主要是研究米糠油在不
阿拉伯木聚糖(AX)是谷物中主要的非淀粉多糖(NSP)之一,具有降血脂,抗肿瘤,免疫调节和抗氧化等多种生理功能。随着饮食多元化发展,生活中单一摄入某种NSP的可能性极低,往往两种或多种NSP共同摄入的情况较为常见,AX与其它多糖共同摄入后其降血脂的效果和机制还有待验证。因此,本试验以AX及其复合多糖为研究对象,将AX与两种不同的NSP按一定比例混合后添加到试验动物饮食中,探究不同膳食组合影响血脂代
数控机床作为制造业的工作母机,广泛应用于各行各业,为生产制造提供了强大的保障。随着机床行业市场规模的发展,数控机床的客户使用量也逐渐增大,客户对机床使用可靠性要求越来越高。对此,机床制造商在客户集中区域设置维修站点和备件仓库,以便及时提供维修服务。但在实际售后服务中,常常因为某些备件存储过多导致资金浪费,又因为某些备件存储不及时导致客户长时间停机等待。基于此,本文从提高数控机床使用可靠性出发,研究
氧化石墨烯(GO)是一种由sp2杂化的碳原子组成的具有二维结构的聚合物状材料,含有大量的羟基、羧基和环氧基团。这些羟基、羧基和环氧基团的引入不仅使得氧化石墨烯具有良好的水溶性以及稳定性,而且让氧化石墨烯更易于修饰从而使其具有功能化作用。氧化石墨烯比表面积大,而且它的两面都具有芳香结构,通过π-π共轭、氢键和疏水效应使得氧化石墨烯具有一些独特催化性能。最近几年,因为氧化石墨烯容易制备,价格低廉,绿色
随着电子传感器、柔性显示器、健康监护仪、智能电子皮肤等柔性可穿戴电子设备的快速发展,对柔性能源存储器件的要求越来越高。在各类能源存储器件中,全固态柔性纤维超级电容器不仅具有循环周期长、功率密度高、充放电速率快及安全环保等优点,而且在弯曲、折叠、扭转、拉伸等连续机械形变下可长时间保持其电化学性能,可直接编织进织物满足可穿戴设备需求,被认为是极具发展潜力的柔性储能电源。但是,如何制备柔性纤维电极材料及
近年来我国自然灾害频发,尤其是洪灾,对国民人身安全造成重大威胁,对我国经济造成重大影响,因此防洪调度工作显得尤为重要。短期入库流量作为防洪调度中的重要依据,它的预测精度直接影响防洪调度的有效性。为了降低洪灾危害,达到防洪、兴利目的,提高短期入库流量预测精度是有其必要性的。针对目前主要模型在处理湖南常德地区数据时预测精度不高问题,通过增加正则化因子对机器学习算法light GBM的损失函数huber