论文部分内容阅读
文字识别技术一直以来都是模式识别领域中的一个重要课题。基于不同的书写方式,不同的识别对象,识别方法也不尽相同。在充分考察目前英文单词识别技术发展现状的基础上,本文设计了一种先对单词进行分割,然后再进行字母识别,最后对字母识别结果进行重组的联机手机英文单词识别系统。
本文首先提出了一种基于规则的联机手写英文单词分割的方法。该方法首先将单词的采样点的所有局部最低点作为潜在分割点,然后抽取每个潜在分割点的五个属性特征,最后通过学习到的规则对这些潜在分割点进行编辑(移动、删除或保留)获得最终分割点,由此将单词分割开来。
字母识别引擎是用反向传播神经网络架构而成的。在前人已经进行的研究基础上,为字母设计了新的特征及目标向量,并进行了大量的训练,最终得到一个识别效果比较好的神经网络。
单词分割算法的过分割现象是不可能避免的,因此在识别过程中必须把相邻笔划进行合并。本文设计了一棵组合树解来解决穷举所有组合方式的问题。对于单词的每一种重组方式,首先将它的每一个笔划段分别送入字母识别引擎进行识别,然后再对识别引擎给出的所有候选字母进行组合。为了解决组合单词数目过于庞大的问题,本文又在实验的基础上提出了一些用于提高识别率和识别速度的剪枝方法。
在UNIPEN数据集上进行了识别实验,正确识别率达到86.6%,平均每个英文单词的识别时间为0.85秒。实验结果表明:本文所提出的方法是行之有效的。