论文部分内容阅读
支持向量机是在统计学习理论的基础上发展起来的新一代学习算法,该算法在机器学习、模式识别等领域都取得了很好的应用。但随着需要处理的数据量不断增大,支持向量机表现出计算效率不足等缺点,针对这一问题,人们提出了并行支持向量机的解决方法。本文以此为研究背景,展开了对并行支持向量机的相关研究工作。
本文详细探讨了并行支持向量机的相关理论,从支持向量机和并行技术两方面入手,对并行支持向量机的理论基础和技术支持进行了深入研究。支持向量机是并行支持向量机的理论基础,在简要介绍了其发展历程之后,对其理论依据和实现算法都进行了深入研究。并行技术是并行支持向量机的技术支持,主要介绍了其软硬件的发展历程及目前的关键技术,着重介绍了计算机集群系统。计算机集群系统以其良好的编程性、低廉的价格和极高的性能成为目前并行机的一个主流发展方向,因其特别适合我国的教育、科研部门的需求,故在集群系统上进行的并行支持向量机的研究具有重要的实际意义和很好的推广价值。
本文介绍了目前并行支持向量机的发展情况,对其基本模型和改进算法都进行了深入研究。在这一部分,着重介绍了w-model和Cascade SVM两种实现并行支持向量机的设计模型,并分析了两者各自的优缺点。在这两个模型的启发下,借鉴两者的优点并加以结合,提出了适合在并行环境上应用的支持向量机求解方法。该方法首先并行生成多个支持向量机分类器,然后采用遗传算法的思想对最终解进行搜索。本文详细论述了所提出算法的解决思路及其数据结构的设计,对遗传算法在本问题的应用中,其选择、交叉和变异等遗传操作的具体设计实现进行了详细描述。
最后,在由DNA序列生成的生物数据集上,对Cascade SVM和GA-PSVM进行了测试,给出实验结果并对实验结果进行深入分析得出了相关结论。关于GA-PSVM的实验结果表明,应用遗传算法的并行支持向量机算法既保证了原始问题的正确率,又大大缩短了运行时间。但是随着测试数据维度的增加,并行算法加速比有所下降,本算法在适应度函数的设计上,还有待于进一步完善。