论文部分内容阅读
汉字识别的研究工作一直被看作是具有重要理论意义和实践价值的模式识别问题,并被视为字符识别研究的最终目的。由于汉字类别多且字形结构复杂、汉字集合中相似字较多以及因不同人书写风格的差异造成手写汉字的变形很大,使得脱机手写体汉字识别最为困难。目前,脱机手写体汉字识别技术还处于研究发展阶段。 本文针对脱机手写体汉字识别技术的难点,综合运用数学形态学和小波变换等数学手段,针对脱机手写体汉字的特点,从仿人识字的角度出发,研究机器识字问题。 论文的主要工作如下: 1) 手写体汉字图像预处理。以特定六边缘点跟踪法提取手写体汉字笔划宽度,以数学形态学方法将手写体汉字进行宽度归一化,获取笔划宽度一致的汉字图像。可有效减小手写体汉字变形程度。 2) 手写体汉字笔划提取方法。基于数学形态学方法,给出了手写体汉字横、竖、撇、捺的提取方法,并且运用八邻域排除法对于提取出的四个方向的笔划进行修正,使得横平、竖直。 3) 手写体汉字的重构。提出了一种手写体汉字图像重构方法。运用横、竖、撇、捺笔划图像分/合/交判断叠加法,重构出近似印刷体的汉字图像。再运用八邻域排除法去除叠加图像笔划交点处的毛刺,可获得原汉字图像的基本结构信息。 4) 手写体汉字识别算法。依据提取的手写体汉字笔划获得横、竖、撇、捺四类笔划数量特征,根据重构的手写体汉字图像提取二维小波变换特征,并以同样的特征提取方法建立标准印刷体汉字特征库,给出了手写体汉字与标准印刷体汉字特征匹配识别算法。该方法能较理想地消除手写体汉字的变形,提高手写体汉字识别率。 实验仿真表明:基于笔划宽度归一化和笔划提取叠加重构的方法能够完整地保持原手写体汉字的结构特点,有效地消除手写体汉字的变形。双重特征提取方法能够有效地表征汉字图像的基本信息。手写体汉字与标准印刷体汉字特征匹配识别算法能较为准确地识别手写体汉字。