动态粒度支持向量机分类模型

来源 :山西大学 | 被引量 : 0次 | 上传用户：achun5808

【摘要】

：

随着信息时代的飞速发展,各种数据呈现出爆炸式的增长态势。同时,数据形式也变得复杂且多样,给以机器学习为核心技术的数据挖掘带来了极大的挑战。其中,数据的海量性和数据的

【作者】

：

赵帅群

【出处】

：

山西大学

【发表日期】

：

2020年01期

【关键词】

：

粒度支持向量机大规模数据动态粒划非平衡数据混合采样

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息时代的飞速发展,各种数据呈现出爆炸式的增长态势。同时,数据形式也变得复杂且多样,给以机器学习为核心技术的数据挖掘带来了极大的挑战。其中,数据的海量性和数据的非平衡性是数据的两类重要特性。大规模数据具有数据量特别大或数据类别特别多的特点,这导致传统机器学习方法在处理大规模数据时需要消耗大量的时间,效率低下,特别是在资源受限的情况下。非平衡数据主要表现为样本数量的显著不平衡性。传统的机器学习模型无法高效地区分少数类样本,甚至无法识别少数类样本。目前,针对数据的大规模性和非平衡性,许多学者已经提出了一些相关的解决方法,但仍然存在一定的局限。一是大规模数据分类的时间消耗仍然较大;二是非平衡数据分类的综合性能较差,即少数类样本的分类准确率较低,且会影响多数类样本的分类准确率。因此,对于大规模非平衡数据的建模方法研究仍具有重要的应用价值。本文以支持向量机模型(Support Vector Machine,SVM)为基础学习模型,结合动态粒度划分方法,分别对大规模数据和非平衡数据的建模开展研究,主要工作包括以下内容。(1)对于大规模数据分类问题,提出一种采用划分融合双向控制的粒度支持向量机方法。该方法首先对数据集进行初始粒划分得到信息粒集,然后以信息粒到支持向量机分类超平面的距离为基准判定信息粒的重要程度,即距离超平面较近区域的信息粒对分类有重要影响,定义为强信息粒;距离超平面较远区域的信息粒对分类影响较小,定义为弱信息粒。在此基础上,结合动态信息处理技术,针对强信息粒进行深层次(细粒度)划分,同时对弱信息粒进行选择性融合,始终将训练样本维持在较小规模。该方法可以在保证模型泛化能力的同时显著提升支持向量机的学习效率。(2)对于非平衡数据分类问题,提出一种结合SMOTE(Synthetic Minority Over-sampling Technique)采样的非平衡粒度支持向量机方法。该方法通过分析多数类样本和少数类样本的分布特性,分别将动态粒度支持向量机方法与SMOTE采样方法应用于多数类样本和少数类样本。考虑到G-means指标能够对非平衡分类结果进行综合评价,具有较高的参考价值,算法使用G-means值的动态变化作为选择SMOTE过采样和动态粒划欠采样的依据,然后通过不断调整分类超平面,再优化G-means值。迭代进行两个过程,最终得到一个具有较强泛化能力的非平衡分类模型。本文针对一般的机器学习模型对大规模数据分类耗时长且非平衡数据分类性能差的问题开展研究,提出动态粒度支持向量机分类模型,将动态粒划方法灵活地运用于大规模数据和非平衡数据的数据处理过程,不仅可以提高大规模数据的分类效率,而且可以提升非平衡数据分类的综合性能。本文的研究成果丰富了粒度支持向量机算法的研究,具有一定的应用价值。

其他文献

面向服装设计的多视点人体参数测量

人体尺寸在虚拟试衣系统、人体工程学、服装学等领域有着广泛的应用场景,同时也是衡量一个国家生产能力的基本技术依据。而服装作为与人体接触最紧密物品,人体尺寸数据显得更

学位

人体测量神经网络图像匹配多视点测量系统语义分割

基于区分矩阵的多粒度属性约简算法研究

随着科技的发展和大数据时代的到来,数据量飞速增长,为人类带来丰富的数据资源,但是这些数据中也会存在大量的冗余信息,使得数据的分析与处理面临诸多挑战。为此,研究如何从

学位

粗糙集模糊邻域粗糙集多粒度属性约简区分矩阵

改进花朵授粉算法及其在工业图像处理中的应用与研究

近年来,图像处理技术在缺陷检测、工件尺寸测量、产品辅助装配等工业领域得到广泛的应用。图像增强和图像分割是图像处理的核心环节,也是学术界研究的热点。因此,本文提出一

学位

花朵授粉算法线性权重优质解随机游走工业图像增强工业图像分割

含脱氢苯丙氨酸和脱氢丙氨酸残基的N-甲基化二肽的构象特性研究

多肽类药物因具有生物活性强、作用靶点专一等特点而被广泛应用于疾病治疗领域。实验研究表明,多肽类药物具有多方面的药效,如对代谢类疾病、癌症、自身免疫性疾病有显著的疗

学位

多肽药物构象限制脱氢苯丙氨酸脱氢丙氨酸构象分析

复杂内腔零件常见制造误差的可视化检测方法研究与实现

制造误差的数字化检测技术应用越来越广泛,该方法的主要过程是:通过数字化扫描手段得到待测零件的三维测量模型,再与相应的CAD标准模型进行比对,从而分析和评定其制造误差。

学位

制造误差内腔结构数字化检测点云分割可视化

dfoxo-Mio/dChREBP介导规律运动改善高糖饮食果蝇心脏舒张功能

1研究目的本实验采用UAS-Gal4系统对果蝇心管基因Mio与dfoxo进行心脏特异性表达调控,探究规律运动是否通过调控dfoxo-Mio对抗高糖饮食诱导的心脏舒张功能障碍。2研究方法将W1

学位

运动心脏高糖Mio/dChREBPdfoxo

微纳光纤机械谐振子的理论及实验研究

腔光力学主要研究腔内光场与机械谐振子之间的相互作用,其不仅为基础物理研究提供了广阔平台,而且在超灵敏传感和量子信息处理方面发挥着重要作用。随着微纳加工技术的日趋成

学位

腔光力学双端夹持微梁光纤机械谐振子机械品质因子光纤扭转传感器

软集在决策问题中的应用研究

经典的数学工具要求所有的概念都是准确的,它在处理具有不确定性,不精确性和模糊性的实际问题时对于参数的描述十分受限.模糊数学即是为解决不确定性问题而诞生的学科.在决策

学位

软集模糊软集参数约简半图顶点标记半图

FAPbBr3钙钛矿量子点的光学特性研究

最近在太阳能电池和发光二极管（LED）方面取得的进展使卤化钙钛矿成为了光学研究中的一个热点,钙钛矿LED的性能主要取决于钙钛矿材料的质量和激子结合能的大小。本研究提出了一

学位

FAPbBr3钙钛矿量子点非线性吸收变温特性发光二极管

基于三维闪存温度的数据分配策略研究

NAND闪存具有体积小、容量大、速度快、不易损坏的优点,被广泛应用在企业数据中心及个人媒体设备中。在基于电荷撷取技术的三维闪存中,因为物理块容纳更多的物理页,所以其容

学位

三维闪存温度闪存阵列纠删码存储系统闪存转换层

动态粒度支持向量机分类模型

与本文相关的学术论文