基于SVM的高维不平衡数据集分类算法

来源 :南京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:daviid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算法,首先通过核函数将数据集映射到特征空间中,再引入改进的核SMOTE(Kernel Synthetic Minority Over-sampling Technique)算法而得到正类样本,使两类样本数目平衡化;然后将维数高的数据集通过稀疏表示的方法投影到低维的空间中,实现降维;最后根据空间的距离关系来确定在输入空间中合成样本的原像,再对得到的平衡样本集通过SVM来分类,通过仿真实验验证了该算法对于高维不平衡数据集有较优的分类性能.
其他文献
对话嘉宾:  张义兵:南京师范大学教育学博士,教育技术学教授,博士生导师。曾任某远程教育有限公司教育总监,现兼任中国教育技术协会信息技术教育专业委员会秘书长。曾赴德国海德堡大学、加拿大多伦多大学做访问学者各一年。发表论文50余篇,主编教材3部。专著《逃出束缚:赛博教育的社会学解读》获江苏省第九届哲学社会科学优秀成果二等奖。科研项目“电脑游戏与青少年发展”获江苏省第二届教育科学优秀成果二等奖。  主
虽然我们是一支"无龄感"的参赛团队,队伍中既有刚工作三年的教师,也有工作了二十多年的教师,但在探讨微课程如何辅助语文教学,实现课堂变革的问题上,我们不分年龄,大家从一无所
在我们的语境中,经常听到诸如“评价是指挥棒、评价是导向”的说法。因为,评价的标准、指标体系,以及测评的结果往往预示了未来发展的某种趋势和可能。下面,我们就透过那些国际著名的学生信息技术能力评价项目,看看在当今这个信息世界中,学生最需要哪些信息技术能力,并以此来展望信息技术课程的发展方向。  ● 关键词1:技术原理  NAEP(美国全国教育进展评估项目)强调了学生理解技术本质的重要性,因为,技术不仅
军校教育改革是改革强军的重要一环,课程的教学改革又是院校教育改革的基本要素。网络管理是作者所在学校面向初级指挥军官通信工程专业开设的一门必修课程,旨在为学员胜任部
2015年11月3日至6日,笔者有幸参加了第四届全国初中信息技术优质课展评活动,学习了很多优秀教师的教学理念和他们促进学生思维能力发展的教学策略,现总结如下。  ● 制造认知冲突,激发学生思维  所谓认知冲突,是指学生在已有的认知结构与当前学习情境之间存在的暂时性矛盾,通常表现为学生已有的知识经验与新知之间存在某种差距。学生在学习新知识之前,头脑中并非一片空白,而是具有不同的认知结构,他们总是试图