论文部分内容阅读
支持向量机Support Vector Machine, SVM)是机器学习领域的有效工具,以其快捷的训练方法和良好的泛化性能受到人们的广泛关注,在函数估计、模式识别等方面取得令人欣慰的成果。然而随着信息技术的飞速发展,机器学习所面临的数据维数及规模越来越大,使支持向量机的性能和效率受到影响。此外,支持向量机的性能易受核函数及参数的影响,因此寻找高效稳定的核选择方法一直也是支持向量机研究的热点问题。集成学习(Ensemble Learning)是一种典型的多机器学习方法,具有较强的稳定性和良好的泛化能力。针对以上问题,本文将SVM与集成学习技术有效融合,在以下几个方面开展研究工作。(1)对集成学习的基本原理及经典算法进行系统介绍,分析集成学习的特点及将其用于支持向量机研究的优势。(2)将多种特征选择算法与Bagging相结合提出一种基于集成学习的SVM特征选择算法。该算法先采用Bagging方法产生多组训练子集,然后在每一子集上利用不同的特征选择算法分别选出相应的特征子集作为输入空间训练得到子SVM学习器。利用不同的特征选择算法有利于构造有较大差异性在的集成个体,提高系统性能,从而弥补最优特征子集选取困难的不足。UCI数据集上的实验结果表明本文提出的算法与基于单种特征选择算法的集成学习相比能进一步增加个体差异性并提高系统学习性能。(3)将聚类与Bagging相结合提出一种基于集成学习的SVM大规模数据处理算法,其基本思想是从大规模数据集中提取出小规模的样本作为子训练集进行SVM集成个体的构造。为保证所提取的样本中包含较多的信息,算法先对原始数据聚类然后从每一类中选取一定比例的样本。在真实的空气质量预测数据集及标准数据集上的实验均说明本算法的有效性。(4)提出一种基于SVM集成的核选择算法。利用不同的核函数及参数产生SVM集成个体,将核选择融合于集成学习当中,避免了传统支持向量机在处理实际问题中要先进行核选择的难题。本文利用集成学习对SVM的特征选择、大规模数据处理、核选择等三方面内容进行研究。本文取得的成果是对SVM学习方法研究的一种补充,也为SVM解决实际应用问题提供一种新模式。