不平衡数据分类方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bevanwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习分类算法通常是在各类数据集样本数量基本平衡的基础上建立起来的。但实际应用场景中的数据集常存在不平衡问题,如医疗诊断,故障预测,信用卡检测等,这将对分类器的泛化能力造成明显的负面效果。因此,提高传统机器学习算法在不平衡数据集上的分类效果一直以来都是机器学习领域中的热点问题。针对数据不平衡问题,现有的解决方案主要包括过采样,欠采样,代价敏感学习,集成学习等,本文从过采样算法,欠采样算法,代价敏感学习算法三个角度出发提出三种新的解决方法,本文主要研究内容如下:分析了常用过采样算法SMOTE在数据过采样问题中的不足,提出了一种融合样本密度的模糊过采样算法(FSMOTE)。在不平衡数据集中,容易被错分的少数类样本往往分布于少数类样本较为稀疏同时多数类样本较为密集的边界区域,FSMOTE算法根据样本的密度设计样本权重,使得这类易错分样本拥有更大的过采样权重并通过插值生成更多的人工样本,以提高分类器对该部分少数类样本的关注程度,提高了分类器的分类准确率。结合支持向量机算法提出一种新的欠采样算法(SVM-US)。该算法首先将多数类样本集中可能影响到少数类分类准确率的部分噪声样本去除。然后通过K-means聚类算法和支持向量机算法寻找出多数类的边界样本集合,与常用的直接删除多数类样本的方式不同,在SVM-US算法中以边界样本与其近邻样本之间进行线性插值的方式重构出新的多数类样本集合,尽可能地保留多数类样本集合的样本分布信息,提高了分类的准确率。分析了支持向量机算法应对不平衡数据集分类时存在的不足,并提出了一种代价敏感支持向量机算法(WSVMCIL),该算法首先根据核密度估计方法估算出样本的概率密度函数,并以此初步确定样本的权重大小;然后根据SVDD算法与样本在类中心的投影位置将数据集分为噪声样本,普通样本,边界样本和重叠样本四类样本集合,结合支持向量机分类算法的特点,以增大边界样本权重和减小噪声样本与重叠样本权重为目标对上述权重作进一步的调整,提高了分类器的准确率。
其他文献
红景天为多年生景天科草本植物,属于天然珍贵药材。红景天中富含多酚类成分,对各种疾病具有治疗价值,如抑郁症、阿尔茨海默病、帕金森病、肝炎、癌症、糖尿病和心脑血管疾病等。但以往的研究主要集中于红景天抗氧化、抗疲劳及抗高原病等活性,对红景天提取物的抗衰老活性鲜见报道。因此,本课题主要研究红景天提取物多酚物质组成和含量、化学和细胞的抗氧化活性、抗肝癌细胞HepG2增殖活性和促HepG2细胞凋亡机制。并选用
随着我国城市化进程的不断推进,工业生产和日常生活所产生的废弃物逐渐引发污染问题。城市污泥作为城市化进程的产物,处置不当极容易造成二次污染,危害环境和人类健康。利用水泥窑炉协同处理城市污泥是实现污泥资源化、减量化、无害化的有效方式之一。因此,研究水泥窑炉在生产过程中掺烧城市污泥后烟气的排放特性,对于工业生产和环境保护方面意义重大。本文从水泥窑炉烟气多污染物生成过程出发,系统性地分析了水泥窑炉掺烧城市
2,4-二氯苯酚(2,4-DCP)是农药、有机化工、医药等生产过程中的重要中间体,也是制浆造纸废水中构成可吸附含氯有机物(AOX)的主要成分之一,由于传统的二级生物降解不能有效去除氯酚,导致部分氯酚转移到物化污泥,甚至生化污泥中,从而进一步影响污泥的高值化利用。2,4-DCP具有生物毒性,对生物体具有致癌、致畸、致突变性,对自然环境和人体健康危害极大。2,4-DCP分子结构中因含有苯环,化学性质非
近二十年来,研究者加大了对无人机研究的投入,因此无人机技术也变得越来越成熟,应用领域也越来越广,例如农业植保、安全巡检、个人航拍、物流运输等。这就产生了对高性能无人机的需求,而无人机性能的提高需要将各方面的优秀方法综合起来。本文主要研究了无人机的避障、地形跟随、定位这三个方面,并将这三个方面的成果综合到一个飞行控制系统中,这样无人机的性能会更加强大,并且能够完成更加复杂多样的任务。本文对多任务无人
将再生骨料用于道路基层、底基层的修筑,既能解决天然砂石短缺的问题又能消纳大量建筑垃圾,符合我国可持续发展和生态文明建设的要求。但再生骨料来源复杂且变异性大,有限样本的室内试验无法代表种类繁多的再生骨料;再生骨料的掺入也增加了混合料内部的薄弱界面种类,从细微观尺度改变了再生骨料混合料的破坏机理。离散元法可以通过改变模型中颗粒间的接触模型和细观参数实现对不同来源的再生骨料的表征,从细观尺度研究再生骨料
镧系稀土掺杂上转换纳米粒子(UCNPs)是一种能够将长波长的激发光转化为短波长发射光的材料,具有优异的物理化学特性(例如较大的反斯托克斯位移、低自发荧光背景、低毒性和高穿透深度)从而在固体激光器、平板显示器、光通信、生物诊断、安全防伪等领域具有重要应用。对能量传递过程的调控是改善和优化稀土上转换发光性能的重要策略。近期研究发现,能量迁移上转移(EMU)是能量传递之外的另一种重要的上转换发光方式,该
近年来随着便捷式电子设备行业的蓬勃发展以及新能源技术与新能源汽车行业的兴起,对锂电池的需求大幅度增加。锂电池电极片作为锂电池最为核心的部件,其表面如果存在缺陷,则会给锂电池的性能和使用寿命带来不同程度的影响,更有甚者,会带来安全隐患,所以在锂电池实际工业生产过程中对电极片表面进行缺陷检测是十分必要的。而传统的人工检测方法费时费力,检测效率低,而且还极容易出现缺陷漏检与误检的情况,因此本文对电极片表
Mg基储氢材料以其质量轻、成本低、原料丰富、储氢量大、吸/放氢平台好等优点被认为是最具发展前景的储氢材料之一。然而,Mg/Mg H2体系稳定的热力学性质与缓慢的动力学性质限制了它的实际应用。合金化和组织调控可以有效改善其储氢性能,但也存在容量降低等缺陷;薄膜化兼具两者的优势,并在纳米尺度上对材料进行改性,可以避免储氢容量的大幅减少。此外,薄膜材料更有利于研究反应前后的微观相转变,揭示吸放氢的反应机
配电网是电力系统中重要的组成部分。低压配电网作为连接电力用户最直接的环节,直接影响到电力系统运行状态以及经济效益。在我国,低压用户的地理分布较为分散,目前仍以配电台区作为供电单元。而配电变压器、线路、用户和配电装置作为台区的组成部分,是影响低压配电网实现智能发展的关键。因此,如何从电力设备规划、运行周期中考虑台区的经济效益,减少电能损耗和建设维护成本,将是未来节能的发展趋势。同时,储能电池大力发展