论文部分内容阅读
保密检查是维护国家信息安全的重要手段。随着保密检查的力度逐步加大,对手写体文件的保密检查是检查工具下一步研究的重点。由于手写笔画的无约束性与笔顺的不确定性,脱机手写体识别一直是一个难以解决的问题,而现有的识别技术针对特定字符集(“保”、“守”、“国”、“家”、“秘”、“密”等等)的识别,远远达不到保密检查准确性、高效性的要求。本文致力于研究一种针对特定字符集的脱机手写文字识别方法,包括去除噪声、恢复笔画原有特征及相应的特征识别算法,并完成一个原型系统的开发与测试,实现特定字符的大部分手写字体的脱机识别功能。论文针对手写识别几个关键步骤进行研究,主要工作如下:(1)去噪算法的研究:细化引入噪声的消除和无约束手写笔画的恢复。针对细化操作所引入的噪声问题,文章描述了一种判定交叉点、端点的方法,并以判定结果为依据分别进行了交叉点分离的去重、笔锋错误突出的恢复与笔画断裂的修复。针对无约束手写笔画的恢复工作,文章提出了一种人工神经网络的训练方法,解决了手写文字连笔和笔画省略的问题,降低了由于手写习惯不同所造成的识别困难。(2)特征识别算法的研究:优化特征提取算法并设计了一种特征匹配算法。首先针对手写体极大的随意性提出了一种笔画内部特征恢复方法,将各种内部特征进行提取并大致分类;其次根据这些特征设计了一个三层分类器,避免了识别一个文字就要进行字典查找的大量时间消耗;最后设计了一个笔画特征库并依此提出匹配方法和笔画相似度计算方法,让文字与库内标准模板进行相似度计算,从而识别出手写体文字。(3)原型系统开发与测试:基于以上研究与保密检查工具的要求进行原型系统开发,通过原型系统进行算法测试和验证并对采集的数据进行分析。在特定字符集中抽取的6个文字1530个样本的实验中,三种主流识别软件对于脱机手写体特定字符集的识别率均未超过50%,而此文档识别系统能够始终保持90%以上的平均识别率。对比结果表明,论文提出的独创性设计与相关技术改进有效地提高了特定字符集的识别率。若制作更多的字体模板,那么识别率将还会继续上升。在同等时间和环境下,将此系统作为主要检查工具,最适合于国家保密检查工作。