论文部分内容阅读
支持向量机因其坚实的理论基础与优越的学习性能已被广泛运用于大规模数据的学习中,但支持向量机优越性是建立在小样本的基础之上,在大规模样本的学习问题上它却并未表现出优势。大样本的学习问题已经成为支持向量机应用的瓶颈,因此提出有效的针对大规模训练样本集的SVM算法意义深远。
本文着重研究了支持向量机在大规模学习中的应用,在深入学习支持向量机理论的基础上,对现今各种大规模支持向量机的解决方法进行了总结分析,其中着重分析了聚类算法在解决大规模支持向量机的优势及存在的问题,并最终提出了一种解决大规模支持向量机学习问题的新策略。本文的主要研究工作有:
l、深入分析了现有大规模支持向量机的学习方法,找出目前研究中存在的问题,特别深入分析了用聚类解决大规模支持向量机各种方法,并对此进行归纳总结。
2、提出了用核空间聚类优化大规模支持向量机的新策略,该策略试图利用核空间聚类算法找出距离SVM中距离分类平面较近的对样本模型学习有贡献的支持向量,同时约减掉大部分对学习无贡献的非支持向量,最后包含支持向量的小部分样本用于新的样本学习,从而弥补了当前优化方法的不足,在提高学习效率的同时保证了SVM的学习性能。
3、提出核空间距离聚类算法(KDC),将该聚类算法与支持向量机相结合构建了基于核空间距离聚类的大规模支持向量机模型(KDC-SVM),利用KDC约减大规模数据集,最后通过实验验证了该优化模型的可行性。
4、针对KDC-SVM模型存在的一些问题:因采用大量随机机制而导致减样不稳定、压缩比例难以控制、自主学习性差等缺陷提出了基于蚁群核聚类的支持向量机学习模型(ANT-SVM),该模型利用提出的蚁群核聚类算法大规模数据集,使支持向量机在大规模样本学习时自主学习能力更强,能够更加迅捷地获得优越的样本模型。实验表明,改进的ANT-SVM模型其学习性能比较强,较KDC-SVM模型它能获得更加稳定的、性能更强的学习模型。
本文提出了用核空间聚类算法优化大规模支持向量机的学习策略,并利用KDC算法、蚁群核聚类算法约简大规模支持向量机训练集,改善了支持向量机的学习性能,同时为大规模支持向量机的应用研究提供了新的思路。