论文部分内容阅读
基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,是机器学习中的一种新方法和研究新热点,该理论受到广泛的重视并应用到不同的领域,已初步表现出很多优于已有方法的性能,然而,它还处在不断发展阶段,仍有一些问题需要进一步研究和完善,其中两个重要问题是:如何将支持向量机由处理二分类问题推广到多分类问题;在处理超多类大样本分类问题时,如何降低计算时间和空间的复杂度。为了解决这两个问题,本文提出了自适应剪枝SVM多分类算法模型,并将其应用到典型的超多类大样本分类问题——脱机手写体汉字识别当中。主要研究工作包括:
1.从机器学习的数学原理、VC维理论基础和风险结构化最小原则等方面研究了统计学习理论,然后研究了支持向量机在完全线性可分情形、允许线性不可分情形和非线性情形的数学模型以及核函数的选择,最后对当前主流的支持向量机求解算法进行了研究,包括二次规划算法、分解算法、序列最小优化算法和增量算法。
2.研究了各种基于支持向量机的多分类算法模型,包括一对一(1-a-1)、一对多(1-a-r)、纠错编码(ECC)、无环有向图(DDAG)和二叉树决策,接着对它们的本质和优缺点进行了理论研究,并对“投票法”和“模糊隶属”两种流行的策略进行了对比分析。
3.研究了最小二乘支持向量机算法、块增量学习理论、剪枝和逆学习,在此基础上,提出了自适应剪枝SVM二分类算法模型,并详细阐述了其理论基础和算法流程,然后,结合支持向量机多分类算法框架,将其推广得到自适应剪枝SVM多分类算法模型,这是本文的主要理论研究成果。
4.对自适应剪枝SVM多分类算法模型进行实验。编写了该算法模型的软件包,并用三个UCT数据集和一个50类的手写体汉字数据集进行实验,从支持向量个数、训练耗时、测试精度、剪枝参数等方面跟基于SMO的多分类算法进行对比分析。
5.将自适应剪枝SVM多分类算法模型应用到脱机手写体汉字识别问题。根据模式识别的一般理论和脱机手写体汉字识别问题自身特点,设计了基于该算法模型的汉字分类器,同时,通过对算法模型进行改进,使其可以处理400类汉字的超多类大样本分类问题。最后利用采集的汉字图像进行实例实验。
实验结果表明,本文提出的自适应剪枝SVM多分类算法模型的在速度和精度方面有较大的优势,应用到脱机手写汉字识别问题中取得了很好的效果。