【摘 要】
:
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程
【机 构】
:
广东外语外贸大学信息学院,广州,510006广东外语外贸大学国际工商管理学院,广州,510006;
论文部分内容阅读
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.
其他文献
近年来,我国的建筑工程发展迅速,在建筑工程中,电气施工是非常重要的一部分.为了在一定程度上提升建筑工程的施工质量,电气施工也逐渐的应用智能化技术,使得工程施工阶段的各
近年来在华南沿海养殖对虾感到越来越难养,尤其是旱造(茬)的早期更是失败多成功少,使有些养殖者失去信心,谈虾色变。尽管有不少养殖者养殖多年的对虾,讲到底还是没有掌握好对虾生活
面向对象中多态机制、类及方法两级结构以及代码克隆现象都对程序聚类结果有较大的影响.已有的程序聚类的研究工作大多针对结构化程序,对于这些面向对象机制的影响没有进行深
自改革开放以来,我国的建筑行业就得到了飞速的发展,尤其是部分建筑施工技术甚至有了实质性的突破成效.虽然整体而言是取得了比较良好的成效,但是和一些发达国家相比,我国的
1.配合饲料的粗蛋白质是不是越高越好?rn答:不一定.蛋白质是饲料的重要组成部分,蛋白质饲料一般相对稀缺而且比较贵.市场上相同厂家的饲料也总是粗蛋白质水平高的比较贵,这也
本文在从电梯的物联网系统结构与物联网技术支持下的电梯功能实现等方面,对物联网技术在电梯中的应用进行研究分析,以促进物联网技术的推广应用,同时提高电梯运行监测与维护
在建筑施工工程不断扩张的情势之下,房屋建筑中存在的渗漏现象极大地困扰着人们,导致建筑施工企业遭受许多业主的投诉,降低了建筑施工企业的社会信誉度和影响力.为此,要充分
2011年让我们不轻松,放苗、排塘、再放苗的怪圈依然萦绕。面对现在的对虾养殖环境,我们应该并有必要对自己原有的养殖技术进行一些有效调整。笔者现将有效应对当前养殖形势的方
针对目前房屋建筑渗漏率依旧较高的现状,结合房屋建筑业未来发展及人们生产生活基本要求,本文详细分析了外墙、厨卫与地下室三个关键部位的防渗漏技术及其具体应用,以此为施
作为大多数分组密码中唯一的非线性结构,S盒在很大程度上决定了分组密码的安全性。论文首先分析Camellia算法中S盒的迭代循环周期,然后从布尔函数出发,利用Walsh谱理论分析其平衡性、非线性性、严格雪崩准则、扩散特性和相关免疫性等密码性质,从理论上揭示了Camellia算法中S盒的安全性,最后指出了该算法中可能存在的安全隐患。