论文部分内容阅读
汉字识别系统中主要有两个主要的模块,一是特征的提取,二是分类器的训练。近年来很多学者对特征的提取进行了大量的研究,使得汉字的识别率已经达到实用的水平。然而这些成熟系统中主要还是使用最简单的距离分类器。因此,能否找到一种高效的分类器成为提高汉字识别系统识别率的关键。支持向量机(SVM)是近年来流行的机器学习方法。SVM算法提出的目的是最大化分类间隔,并且保证有较小的推广错误率,从而在有限的训练样本下,获得最小的推广风险。由于其良好的推广性能,SVM被广泛用于模式识别的各个领域。但汉字识别本身是个大类别分类问题,而支持向量机本身是一个两类问题的判别方法,难以直接应用于多类问题。当前针对多类问题的分类方法主要有4种:一类对余类法,一对一法,二叉树法和有向非循环图法。这些传统的多类方法都具有很高的时间和空间复杂度,难以直接运用于实用系统。本文提出了一种静态候选技术,并在此基础上提出一个全新的LATTICESVM两级汉字识别系统,成功地把SVM推广到大类别模式分类问题中。主要研究内容及结果如下:
⑴介绍了当前汉字识别的现状和主流的汉字特征提取方法。
⑵介绍了本文使用到的SVM算法的发展历史和现状。简单介绍了SVM算法的主要思想和推导过程,并介绍了传统的多类SVM算法。
⑶针对传统动态候选字技术速度慢、存储量大、组合数多的缺点,提出了一种静态候选技术,使得复杂的机器学习算法具有了实际应用的可能。
⑷针对汉字识别中相似字识别率低的问题,提出了LATTICESVM两级汉字识别系统的解决方案,将较复杂而有效的SVM算法引入汉字识别的分类器设计中。在合适的存储量开销的限制下,有效地提高整体系统的识别性能。
⑸通过实验验证了本文提出方法的有效性。