论文部分内容阅读
脱机连续手写体字符识别(Cursive Script Recognition CSR)是字符识别(Optical Character Recognition, OCR)研究领域中比较困难的问题之一,传统的依赖于精确分割的单字识别方法,是在识别之前有专门的切分阶段,把识别对象由文本或单词切分到字符,针对字符进行特征对比。由于切分识别不能很好的解决自由书写字符(如手写汉字、阿拉伯数字)的准确分割问题,使得其对连续手写字符识别的识别变得很困难,识别率比较低。而基于无切分策略的系统,不需要显式的切分阶段,而是运用边识别边切分或者叫识别和切分合而为一的策略。隐马尔科夫模型(Hidden Markov Model, HMM)是一种用参数表示的用于描述随机过程统计特性的概率模型,是一个双重的随机过程,一直被应用于语音识别领域。近年,许多识别领域的研究者正在以各种方式将HMM用于字符识别。本文中简要讨论了字符识别以及HMM的基本理论,发展动态和基本处理方法;随后在HMM理论基础之上进行了单个数字识别的实验,此实验的训练方法为Baum-Welch重估算法,是在语音识别中应用的一个相当经典和成熟的算法,解码用的是Viterbi算法;接着提出了一种基于嵌入式隐马尔科夫模型(Embedded Hidden Markov Model EHMM)的连续手写体数字识别方法,即在训练和解码阶段,将单个字符模型嵌在一起。连续字符模型的参数估计采用的是嵌入式Baum-Welch重估算法,解码识别采用的是符标通行算法(token-passing algorithm),此算法是针对连续字符的特点,在Viterbi算法的基础之上衍生出来的;最后给出了实验结果并对结果进行了分析。