论文部分内容阅读
连续手写文本识别,包括语句、词语、单词和字符序列(部件串、数字串、缩略语等)的识别,是字符识别领域中一个新兴的、重要的研究分支。其受到研究学者们关注的原因在于当今通信业已提供了满足传输需求的物理基础,可以实现消息、数据、信息的实时传输。同时,多数的通信设备,如掌上电脑、移动电话、个人数字助理等,都支持联机笔输入,并具备了字符识别功能。然而,从字符识别的人性化设计角度看,很少有识别模块可以实现连续文本,尤其是汉字串的识别,这严重制约了字符识别技术的进一步拓展。 字符串识别是包括字符切分技术在内的对多个字符子模式进行连续识别的技术,字符切分很大程度上决定了系统的性能。本文针对不定长时间序列的特点,借鉴字符识别技术,提出了采用自由分割方法和动态规划寻优的切分—识别策略的基于字符子模式级联的连续识别的思想。 针对联机英文单词识别,提出基于字符隐马尔可夫模型(Hidden Markov Model,HMM)的级联识别方法,定义了模型间状态转移概率、级联模型的概念,改进了训练算法的重估公式,给出级联Baum-Welch算法和级联Viterbi识别算法。基于字符HMM的级联识别方法不是为字典中的每个词条建立各自独立的统计模型,而是将经过级联Baum-Welch算法训练得到的字符HMM按照级联模型的定义组合得到单词的HMM模型。这种字符HMM能够准确地描述手写文本中相邻字符在上下文环境中的形变。该方法为连续识别技术提供了新的理论和方法支持。本文将级联方法应用于手写体英文单词的识别,测试结果表明,级联模型的描述能力较比较系统有明显的优势,在实验中获得了良好的识别性能。 针对连续中文文本识别,抽取汉字的手写体部件作为结构子模式,建立了手写体汉字部件字符集,完成了GB2312-80中6,763个汉字的部件编码和数据统计工作。手写体汉字部件字符集为连续中文文本识别系统的实现提供了重要的支持。 基于部件HMM级联方法和基于部件的分层构筑(Level Building,LB)方法设计了连续中文文本识别方案,并分别建立了实验平台。对采用部件子模式进行手写体汉字识别的测试结果表明,基于部件HMM级联识别方法,识别率受结构子模式的正确检出率的影响较大,串识别率偏低。由于采用与位置、尺寸、倾斜无关的特征来描述部件,使部件级联后对多变的自由手写汉字的表征具有一定的有效性。使用LB算法与动态时间规正(Dynamic Time Warping,DTW)算法融合的级联方法的汉字测试结果表明,该方法对手写体字形的变化不敏感,当由自由书写向规范书写过渡时部件识别率增加幅度不大;而当书写的笔顺从自由无约束向规范过渡时,部件识别率增加幅度较大。字识别率上有与之一致的变化趋势。方法对于手写体类型和笔顺均无限制样本的适应性差。 针对联机连续手写不定长汉字串,提出并采用了改进的级联LBDTW方法,对手写词语的测试性能显示系统具有对部件较好的检出能力,识别性能较好,特征选择方案和算法不会受多变的书写方式的影响。字符串长度的改变不会对重叠书写的手写词语的识别率造成较大影响。