论文部分内容阅读
在对大规模数据集的模式分类过程中,过多的特征及大量的训练样本都会引发分类的速度很慢及对计算机的内存提出很高的要求等问题,所以在模式分类前要对数据集进行必要的数据处理:特征选择及样本选择,以去除与分类不相关的冗余特征,选择出决定分类器非线性决策面的样本集,用简化的训练集来训练分类器,以提高分类精度及减少对计算机的内存要求。正交设计和均匀设计是两种常用的试验设计方法,二者均能够利用较少的试验次数就可以找出因素间的最优搭配。而支持向量机能处理小样本、具有很好的泛化能力且不受数据集维数的制约。结合三者的优势,本文以支持向量机为分类器,分别提出了基于正交设计和均匀设计的的特征选择方法。根据数据集的特征数目及相应正交表和均匀表的结构,安排训练、测试,最后对优选出的特征子集检验,仿真结果表明,这两种特征选择方法均能够去除冗余特征而且能取得比使用特征全集更高的分类率。支持向量机的一种改进算法是简约支持向量机(Reduced Support Vector Machine,简称RSVM),该算法在训练集中任意选取一部分样本作为支持向量来求解无约束优化问题和构造非线性决策面,相对于求解支持向量机原问题的有约束非线性规划问题,减少了计算难度和计算时间,并且减轻了计算机的内存需求,比标准的SVM的性能在一定程度上有所提高。但是,由于任意选取的样本集不具有代表性,仿真结果缺乏稳定性,因此,本文提出利用减法聚类法分别找出数据集中每类样本的最佳聚类数目,再利用模糊C均值聚类法找出属于每类样本各个聚类中心的样本点,并从中选出一些样本点作为支持向量来改进RSVM算法,得到改进的简约支持向量机(Modified Reduced Support Vector Machine,简称MRSVM),以提高分类器的稳定性。仿真结果表明,MRSVM分类器同RSVM相比,对于同一测试数据集,运行程序所需要的时间少了,而且训练误差和测试误差也减少了很多。