论文部分内容阅读
脱机手写体汉字识别是模式识别领域一个极具挑战性的课题,它将在信函分拣、银行支票识别、统计报表处理以及手写文稿的自动输入等诸多方面发挥巨大的作用。然而,手写体汉字的书写随意性很大,相邻汉字之间的位置关系也复杂多样,因此,相对于其他字符识别,脱机手写体汉字的发展明显缓慢而障碍重重。
本系统的主要应用方向为手写文稿的自动录入,主要工作如下:
1、预处理方面,实现了基本的图像平滑,并针对不同纸张背景制定了区别对待的图像二值化策略:对以空白纸张为背景的汉字图像采用迭代最佳分割阈值算法,以稿纸为背景的汉字图像采用双重阈值法。
2、回顾和总结了历年手写汉字的主要细化方法,在结合本系统主要适用于汉字录入这一用途的基础上,提出了改进细化算法。
3、介绍了几种主要的统计特征和笔划结构特征提取方法,针对手写体汉字采用全新的笔段特征提取算法,同时还提出了一种新的基于笔画结构的字切分算法。
4、在识别阶段,本文采用了改进的双层串行分类器结构,使识别时间比单层分类器缩短了50%。
本系统中训练和测试样本共包含一级汉字和二级汉字约2000个,每个汉字有6种不同风格。将训练样本分为两类:第一类为手写印刷体汉字,笔划疏散且基本横平竖直;第二类工整普通汉字书写有少量连笔,字形尽量规整。分别采用两种不同识别方法后得到第一类汉字识别正确率为90%,第二类汉字为85%。