【摘 要】
:
不平衡数据广泛存在于现实生活中。在这样的数据集中,数量上相对稀少的少数类本数据往往是人们所特别关注的重点。在不平衡数据中,少数类数据通常被大量的多数类样本所包围,
论文部分内容阅读
不平衡数据广泛存在于现实生活中。在这样的数据集中,数量上相对稀少的少数类本数据往往是人们所特别关注的重点。在不平衡数据中,少数类数据通常被大量的多数类样本所包围,传统的分类算法因为不平衡数据集中各类内样本数量上严重的倾斜和分布不均衡已变得不太适用,虽然在分类精度上能达到一个很高的水平,但远没有取得人们预想的分类目的。上采样技术是处理不平衡数据集分类的一个重要研究方向。在所有的上采样技术中SMOTE算法以及该算法的改进版本BSMOTE是特别有代表性的两个方法。SMOTE算法通过少数类内部样本之间使用插值的方法合成新的少数类样本,以期达到类间数据平衡的目的。但是,SMOTE算法在生成新样本的过程中仍旧存在着如生成的新样本可能会成为噪声点、生成的新样本大多位于原小样本密集的区域,不能改变少数类分布稀疏的情况等问题。因此为了进一步提升少数类的分类精度,本文在BSMOTE算法的基础上提出了一种新的上采样方法Distance Based SMOTE,以此来进行新的少数类样本生成。新算法DBSMOTE在生成新样本的时候不会选取多数类样本作为合成新样本的数据来源,而是只选取边界样本同其最近多数类样本的中间点作为新样本合成的来源。既拓宽了少数类的分类边界,又降低了生成噪声数据的可能性。同时,在合成新样本的时候将待合成点的距离参数考虑进去,待合成点两点间的相隔距离越长获得样本生成数量越多,距离越短合成新样本的机会就越少,这样在分类算法中能使位于少数类中样本稀疏区域的边界样本更多关注,以此均衡少数类内部数据分布不均衡的问题。根据多个不平衡数据集上的实验表明,本文提出的算法可以有效的解决上诉SMOTE和BSMOTE算法中存在的问题,有效的提高少数类样本的分类准确率。经过DBSMOTE处理后的不平衡数据在性能评价准则F-measure和AUC上总体表现最好,取得了良好的分类效果。
其他文献
市场上主要的涂料流变助剂各有优缺点,生产出一种综合性能更好的涂料流变助剂尤为重要。本文在对海明斯特殊化工公司生产的建筑涂料用流变助剂BentoneSD-1进行剖析的基础上,
在汽车制动领域中,摩擦材料是不可或缺的功能器件之一。低金属摩擦材料是以金属纤维或还原铁粉为基体,通过热压工艺进行生产的,具有导热性好、摩擦系数稳定、生产成本低等优
玲珑金矿是我国重要的金矿集中区,矿区内岩体主要为花岗岩,大部分地区被第四系覆盖。矿脉受玲珑断裂控制,从金矿脉到新鲜围岩均沿矿脉的两侧出现对称的水平分带特征,依次为金
新常态下中国经济由高速增长转向中高速增长阶段。为应对经济增长的下行压力,企业承担着经济转型发展的重要任务。然而,中国资本市场发展尚不完善,企业普遍面临不同程度的融资约束问题。融资约束严重掣肘企业的经营效率,成为企业绩效提升的“蹩马腿”。商业信用产生于企业日常交易活动中的赊销赊购行为,是企业在商品交易过程中由于延期支付或预售行为所产生的信用关系,其作为一种直接融资能够有效地缓解融资约束。但是,商业信
随着陶瓷行业生产商之间的竞争愈发激烈、国内外经济形势的不容乐观,以及企业规模的扩大,近些年我国陶瓷生产企业的优秀员工跳槽频繁,对企业效益和后续业务展开都产生了负面影响。LY市H陶瓷公司同样面临着这些问题,突出问题是企业的管理水平与企业的发展速度不相匹配,公司采用以往的管理制度,致使员工的积极性不高,尤其是工作强度大、待遇不高的一线员工。而以往学者对一线员工激励机制的研究和讨论,对象多集中在国有企业
WIFI由于具有低成本、高速率、使用便捷等优势,已经成为人们生活中必不可少的一部分。随着无线智能终端的爆发增长以及移动互联网的快速发展,人们对于WIFI的连接需求越来越大
目的:通过检测脑膜瘤及正常脑膜组织中蛋白磷酸酶2A的癌性抑制因子(Cancerous inhibitor of protein phosphatase 2A,CIP2A)和原癌基因c-Myc的表达水平,分析其表达与临床病理
随着中国工业化和城镇化加速推进,中国经济结构不断转型升级,为适应新常态下经济高质量发展的趋势,快消品行业也不断加速转型。在国家政策的驱动及企业高成本影响因素下,快消产业逐渐由低层次、粗放型、高能耗、高污染向品牌化、精品化、专业化转型。榨菜作为世界三大名腌菜之一,在我国具有悠久的历史文化,而重庆涪陵作为我国榨菜的发源地,近年来,涪陵榨菜不断完善产业结构,注重产品的研发创新,在全国的销售量持续上升,呈
关联规则的挖掘是数据挖掘领域和个性化推荐领域的重要分支,用于发现数据库项目间有意义的联系,其中加权关联规则的挖掘因更有利于解决数据库中项目重要程度不同等问题成为主
云计算、移动互联网和社交网络等新兴信息技术和应用模式的迅速普及,致使全世界数据量剧增,推进人类社会进入海量数据时代。如何从这些海量数据中提取出有价值的信息,为大数