论文部分内容阅读
随着信息时代的飞速发展,各种数据呈现出爆炸式的增长态势。同时,数据形式也变得复杂且多样,给以机器学习为核心技术的数据挖掘带来了极大的挑战。其中,数据的海量性和数据的非平衡性是数据的两类重要特性。大规模数据具有数据量特别大或数据类别特别多的特点,这导致传统机器学习方法在处理大规模数据时需要消耗大量的时间,效率低下,特别是在资源受限的情况下。非平衡数据主要表现为样本数量的显著不平衡性。传统的机器学习模型无法高效地区分少数类样本,甚至无法识别少数类样本。目前,针对数据的大规模性和非平衡性,许多学者已经提出了一些相关的解决方法,但仍然存在一定的局限。一是大规模数据分类的时间消耗仍然较大;二是非平衡数据分类的综合性能较差,即少数类样本的分类准确率较低,且会影响多数类样本的分类准确率。因此,对于大规模非平衡数据的建模方法研究仍具有重要的应用价值。本文以支持向量机模型(Support Vector Machine,SVM)为基础学习模型,结合动态粒度划分方法,分别对大规模数据和非平衡数据的建模开展研究,主要工作包括以下内容。(1)对于大规模数据分类问题,提出一种采用划分融合双向控制的粒度支持向量机方法。该方法首先对数据集进行初始粒划分得到信息粒集,然后以信息粒到支持向量机分类超平面的距离为基准判定信息粒的重要程度,即距离超平面较近区域的信息粒对分类有重要影响,定义为强信息粒;距离超平面较远区域的信息粒对分类影响较小,定义为弱信息粒。在此基础上,结合动态信息处理技术,针对强信息粒进行深层次(细粒度)划分,同时对弱信息粒进行选择性融合,始终将训练样本维持在较小规模。该方法可以在保证模型泛化能力的同时显著提升支持向量机的学习效率。(2)对于非平衡数据分类问题,提出一种结合SMOTE(Synthetic Minority Over-sampling Technique)采样的非平衡粒度支持向量机方法。该方法通过分析多数类样本和少数类样本的分布特性,分别将动态粒度支持向量机方法与SMOTE采样方法应用于多数类样本和少数类样本。考虑到G-means指标能够对非平衡分类结果进行综合评价,具有较高的参考价值,算法使用G-means值的动态变化作为选择SMOTE过采样和动态粒划欠采样的依据,然后通过不断调整分类超平面,再优化G-means值。迭代进行两个过程,最终得到一个具有较强泛化能力的非平衡分类模型。本文针对一般的机器学习模型对大规模数据分类耗时长且非平衡数据分类性能差的问题开展研究,提出动态粒度支持向量机分类模型,将动态粒划方法灵活地运用于大规模数据和非平衡数据的数据处理过程,不仅可以提高大规模数据的分类效率,而且可以提升非平衡数据分类的综合性能。本文的研究成果丰富了粒度支持向量机算法的研究,具有一定的应用价值。