面向特定字符集的脱机手写体文字识别算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kami121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
保密检查是维护国家信息安全的重要手段。随着保密检查的力度逐步加大,对手写体文件的保密检查是检查工具下一步研究的重点。由于手写笔画的无约束性与笔顺的不确定性,脱机手写体识别一直是一个难以解决的问题,而现有的识别技术针对特定字符集(“保”、“守”、“国”、“家”、“秘”、“密”等等)的识别,远远达不到保密检查准确性、高效性的要求。本文致力于研究一种针对特定字符集的脱机手写文字识别方法,包括去除噪声、恢复笔画原有特征及相应的特征识别算法,并完成一个原型系统的开发与测试,实现特定字符的大部分手写字体的脱机识别功能。论文针对手写识别几个关键步骤进行研究,主要工作如下:(1)去噪算法的研究:细化引入噪声的消除和无约束手写笔画的恢复。针对细化操作所引入的噪声问题,文章描述了一种判定交叉点、端点的方法,并以判定结果为依据分别进行了交叉点分离的去重、笔锋错误突出的恢复与笔画断裂的修复。针对无约束手写笔画的恢复工作,文章提出了一种人工神经网络的训练方法,解决了手写文字连笔和笔画省略的问题,降低了由于手写习惯不同所造成的识别困难。(2)特征识别算法的研究:优化特征提取算法并设计了一种特征匹配算法。首先针对手写体极大的随意性提出了一种笔画内部特征恢复方法,将各种内部特征进行提取并大致分类;其次根据这些特征设计了一个三层分类器,避免了识别一个文字就要进行字典查找的大量时间消耗;最后设计了一个笔画特征库并依此提出匹配方法和笔画相似度计算方法,让文字与库内标准模板进行相似度计算,从而识别出手写体文字。(3)原型系统开发与测试:基于以上研究与保密检查工具的要求进行原型系统开发,通过原型系统进行算法测试和验证并对采集的数据进行分析。在特定字符集中抽取的6个文字1530个样本的实验中,三种主流识别软件对于脱机手写体特定字符集的识别率均未超过50%,而此文档识别系统能够始终保持90%以上的平均识别率。对比结果表明,论文提出的独创性设计与相关技术改进有效地提高了特定字符集的识别率。若制作更多的字体模板,那么识别率将还会继续上升。在同等时间和环境下,将此系统作为主要检查工具,最适合于国家保密检查工作。
其他文献
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。K-近邻(KNN)是一种重要的文本自动分类方法,能够处理大规模数据,且具有较高
随着互联网的高速发展,信息共享更加便利,但与此同时,暴力、色情、反动等不良信息也随之泛滥。如何有效监控互联网上的信息,过滤其中的不良信息,确保互联网内容的安全健康,是
织物染色配色是一个复杂的非线性问题。由于神经网络是求解非线性问题的一种有效手段,因此,已有很多科研人员将神经网络应用到计算机配色问题中,并取得了一定的成果。但是利
Ad Hoc网络是一种没有有线基础设施支持的移动通信网络。Ad Hoc网络中所有节点的地位平等,无需设置任何中心控制节点,具有很强的抗毁性。网络中的节点既是通信主体,又是其它
随着网络技术的迅速发展,无线传感器网络(Wireless sensor networks, WSNs)广泛应用于各个领域。由于海洋技术及军事上的需求,水下无线传感器网络(Underwatersensor acoustic
本文首先介绍了小麦赤霉病的研究现状,分析了影响我国小麦赤霉病的因素,对小麦病虫害常用的预测方法进行了综述,并分别介绍了各种预测方法的优缺点。在此基础上,本文提出一种
当代企业的业务随着市场环境的变化而变化,企业信息系统中的异构数据也越来越多,如何有效地集成并利用企业内部的异构数据,使其在不同的系统之间能够共享,且能够提高系统业务
随着信息技术和通讯技术的飞速发展使得实时地获取和处理信息成为可能,为了获得更多的经济利益,许多现代企业已经充分地利用这些技术手段来对自身资源进行科学管理。物流配送
路径规划是移动机器人研究的一个重要分支。基于动态行为的策略为二维未知环境中的移动机器人路径规划提供了很好的解决办法。本文针对基于模糊逻辑控制的动态行为移动机器人
WiMAX是一种基于IEEE 802.16标准的宽带无线接入城域网技术,主要用来解决“最后一公里”接入问题。为了满足网络中新业务不断提高的QoS要求,WiMAX系统在MAC层定义了比较完善