一种基于K均值聚类的下采样算法

来源 :科技通报 | 被引量 : 0次 | 上传用户:zjj008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机下采样方法在不平衡数据集处理上容易造成重要信息损失,影响了分类器的性能。为了尽可能的避免数据信息损失,本文提出了一种基于K均值聚类的下采样方法。该方法通过K均值聚类将原始多数类样本聚为与少数类样本数目相当的簇,然后对每一个簇求样本中心,利用样本中心作为新的多数类的样本。本文所提方法得到的多数类样本与少数类样本个数相当,降低了不平衡度,而且每一个新多数类样本都是每一个簇的中心,保留了原始样本的分布信息。在客户流失数据集上的分类实验表明,本文方法较随机下采样方法更为有效。
其他文献
了提高苗木移栽成活率的关键技术,包括移栽前准备、整地及土壤改良、移栽时间、苗木起挖、苗木起运、定植、苗木管理及病虫害预防等方面内容,以为提高苗木移栽成活率提供参考。  1苗木移栽前准备  规划先行,落实责任,严格按照规划要求的数量和规格选苗、定苗,并落实到人。为了保证苗木成活,避免疏漏,分工具体,要明确责任,层层落实,将任务分至每一个环节,落实到每一个人,形成一条线管理。免费论文网提供任何环节出现
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着科学技术的不断发展,科技的进步同时也带动了农业的发展,当前我国农业经济正处于飞速发展的上升时期,与此同时农业经济管理学科也在不断进步,以适应新时期农业经济的发展
7月10日上午,由湖北省委网信办指导、湖北日报传媒集团主办、荆楚网(湖北日报网)承办的2020湖北第三届政能量峰会上,揭晓了2020年"湖北十佳政务新媒体"获奖名单并颁奖,青春湖
在矿区环境可持续发展决策支持系统的后台矿区GIS索引优化的研究中,通过对数值分析、图形学和数据挖掘的研究,采用Delaunay图预处理技术及蜂群聚类算法优化矿区GIS索引分裂算法,优化后的算法能减少矿区GIS索引分裂重插产生的重叠。通过仿真实验表明,优化方案是可行有效的,同时提高了矿区GIS数据库的查询性能。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
【正】高三复习课是整个高中数学课教学的重中之重.复习必须建立在学生的认知发展水平和已有的知识经验基础上,这就要求教师要能从学生的实际出发,引导学生学会解题,形成能力