一种基于过抽样技术的非平衡数据集分类方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:yhz8668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。
其他文献
以狼山鸡和鹿苑鸡为研究对象,利用DNA测序技术测定线粒体细胞色素C氧化酶亚基Ⅰ(COⅠ)基因序列,探讨COⅠ基因的特定区段作为DNA条形码在识别地方鸡品种方面的可行性和有效性
按植物偏爱密码子设计合成一种新型降钙素基因相关肽基因(mcgrp),构建植物双元表达载体p35S-2300::mcgrp::noster,通过农杆菌介导法转化番茄,获得卡那霉素抗性植株27株;经PCR和Southern
研究了蓝莓、枸杞、白砂糖和蜂蜜4种原料的添加量对蓝莓枸杞复合饮料的影响,采用正交试验,研究不同原料配比对蓝莓枸杞饮料感官品质的影响,得到最佳配方为蓝莓汁添加量12%,枸
会计信息的质量与信息使用者的利益密切相关,财政监督部门作为一个政府机构,因其有其权威性和影响力,本文从财政监督检查的角度谈一下如何更好的保障会计信息的质量,保障利益
为了分析可溶性MHCⅠ类相关分子A-(sMICA)对淋巴细胞活化性受体NKG2D及早期活化标志性受体CD69表达的影响,从U937细胞中经RT-PCR扩增出sMICA的cDNA片段,经酶切后插入原核表达载体