数据挖掘中平衡偏斜训练集的方法研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:quuizx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.
其他文献
软件正确性是一个逐渐改进的过程.通过不断地修改,软件越来越接近于正确.同时软件的执行依赖于环境.为了刻画软件的动态正确性并考虑环境的因素,以参数化互模拟为基础,利用极限的观
随着海上作业的快速发展,例如货物运输、石油开采等,船舶行业也得到了较多的关注。而对于船舶行业来说,机械设备功能的正常运转是确保船舶可以正常行驶的关键性因素。因此,做
【正】 “九五”攻关优秀科技UV-固化PVC扣板涂料 UV-固化涂料是由紫外光固化的涂料,在我国是20世纪90年代初才发展起来的新型涂料。这种涂料有两个显著的特点:一是所有组分1
江西省会昌县纤维板厂是1990年投产的木质湿法纤维板生产厂.投产前为解决废水污染问题,投资10多万元建了3个各300m3的沉淀池,全厂生产的废水经三级沉淀后再外排.实践证明,纤
11月21日上午,东营市与世界500强企业之一的美国杜邦公司在北京人民大会堂签署项目协议,标志着就在东营经济开发区建立一个世界级钛白粉生产设施而进行的商务谈判取得重大进展
考虑下列非线性分数次数p拉普拉斯方程(-Δ)^s pu(x)+u(x)=u q(x)。基于分数次p拉普拉斯的无穷远处衰减性,利用直接的移动平面法证明了上述方程在全空间中正解的径向对称性和