论文部分内容阅读
对于脱机手写中文文本识别,字符切分是其中一个十分重要的部分。由于在字符识别之前不能准确地切分,往往采取过切分方法,即将字符串切分成基元片段,然后结合字符识别和上下文动态地组合基元片段得到字符。过切分一般通过连通块标记和粘连字符切分来实现。粘连字符切分的目的是保证在争取切分开粘连区域的前提下,尽可能少的切分。这是一个研究的难点,虽然已有一些前人的相关研究工作发表,但仍然有很多遗留问题未能解决,值得进一步进行深入研究。本文通过对于脱机粘连手写字符串过切分方法的深入研究,有效提高了手写字符串的切分和识别正确率。本文的主要贡献如下:
(1)建立国内首次公开的粘连字符串数据库。我们利用已经标记好的脱机手写文本数据库CASIA-HWDB,抽取出其中的所有粘连字符串,建立了一个标注好的粘连字符串数据库CASIA-HWDB-T。该数据库总共包含56,469个粘连字符串,其中大部分是单粘连字符串,余下的小部分是1,818个多粘连字符对。
(2)提出一种基于字符轮廓匹配的过切分算法。该方法的主要特点在于我们使用动态时间折叠(Dynamic Time Warping,DTW)技术,来找到轮廓特征点相应的对面轮廓最佳匹配点。这样即使在粘连区域附近不存在上轮廓或者下轮廓角点的情形下也能生成切分线段。在大规模粘连字符串数据库上的实验结果表明该方法能够正确切分开绝大部分粘连字符串(即很高的召回率)。
(3)提出一种结合前景骨架分析和字符轮廓分析的过切分算法。相比较于轮廓分析,前景骨架分析有利于更准确地找到正确切分点。同时我们基于轮廓分析的切分点的可见性度量能有效地过滤掉冗余切分点。在大规模粘连字符串数据库上的实验结果表明,该方法能够正确切分开大部分粘连字符串,而冗余切分点比例是比较适中的。
(4)提出一种结合规则和学习过滤的过切分算法。基于学习的过滤可以克服以往完全基于经验规则过滤冗余切分点时不够鲁棒的缺陷。我们在标记的正确切分线段和冗余切分线段样本上,提取切分线段相关的多维几何特征,训练线性分类器(Linear Discriminant Function和Linear Support VectorMachine),并将分类器输出通过Sigmoid变换转化为置信度概率,然后根据单个切分线段的置信度和相邻切分线段的置信度对比去除冗余。实验结果表明,该方法能够取得比较好的切分点检测召回率和精度的折中,并且有助于提升字符串识别性能。
(5)提出一种基于隐马尔可夫模型(Hidden Markov Model,HMM)的切分线段过滤算法。HMM是一种一维序列模式识别的方法,能更好地描述前后切分线段的相关性,来从整体上判断冗余切分线段。在大规模粘连字符串数据库上的实验结果表明了该方法的可行性。