基于深度神经网络的印刷体文字识别

来源 :山东大学 | 被引量 : 0次 | 上传用户:mylocoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化社会,人们要处理大量各种类型的文字资料,为了帮助人们快速完成信息录入,文字识别技术应运而生,且具有非常广阔的应用前景。目前市面上比较成熟的印刷体文字识别系统或软件大多只针对某个单一的应用场景,比如发票识别、身份证识别、文档识别等,因此只能识别某一类型的图像和文字,尚缺乏可以识别多种类型多种字体的通用文字识别系统。为此,本文实现了适用于多种类型多种字体的印刷体文字识别算法,识别类型包括书籍、刊物、海报、宣传单、票据等各类含有印刷体文字的纯文本图像,可识别的字体有13种,可识别的字符包括一级、二级汉字及不常用汉字、大小写英文字母、数字和常用标点符号,共6870种字符,支持各类字符混排识别,因此适用范围更加广泛。本文详细阐述了印刷体文字识别技术的算法处理流程,包括图像的倾斜矫正、文本检测、文字识别和结果校验。实现了针对扫描仪、相机等电子设备获取的印刷体文本图像的文字识别算法,并完成了网络的训练。通过扫描仪或相机对纸质文字资料进行采集并生成文本图像,利用数字图像处理技术和深度学习算法完成图像中的文字识别,从而将文字信息快速提取出来,节省了时间和人力成本,在信息处理等方面具有重要的实用价值和理论意义。本文主要工作有以下几个方面:(1)为了解决目前真实图像数据集获取困难的问题,本文完成了大规模印刷体文本图像的合成。该数据集包含丰富的语义信息,在文字特征、背景、模糊程度等各个方面呈现出多样变化,可以很好地提高模型的鲁棒性。(2)本文实现了真实场景下的印刷体文字识别算法,包括基于CTPN模型的文本检测算法和基于CRNN模型的文字识别算法。将两者进行结合,实现了对大篇幅文本的端到端识别。本文在已有研究的基础上,对网络结构及参数进行调整和测试,通过大量的对比实验最终得到了一个适用于印刷体文字识别的网络模型,并表现出良好的识别效果。(3)为了校验识别结果,本文设计并实现了一种基于模板匹配的结果校验算法,并结合匹配度、字符位置等信息,检测是否存在错误识别和缺漏识别的情况,并对识别错字和漏字进行纠正,进一步提高了字符识别准确率,并达到了99.5%。
其他文献
中国、蒙古比邻而矗。2013年习近平总书记在哈萨克斯坦出访时提出建设丝绸经济带。同时期,蒙古领导人提出了"草原之路"经济振兴计划。两个领导人在国家发展战略方面的想法达
备受国内车主期待的全新CR-V已于2月底正式发布并匕市销售。它以“Thelnnovator(开创者)”的姿态登场,在承袭CR-V车型高品质、高可靠性、全面均衡优势的基础上,以创新的理念,融合
两厢还是三厢?相信很多朋友在购车时都面临着这一抉择。两厢车的紧凑动感和三厢车的居家实用,着实都能够让每一位购车者颇为心动。厂商们更看到了这两点的相辅相成,于是很多车
必要的交代:文本分析往往无效,原因就在把文本当做一个平面,其实,文本是一个立体结构。从文字上直接感知的是文本的表层,也就是文本的显性结构,人物感知、行为和语言的描述,
40年改革开放以来,经济快速发展,但与此同时,人地矛盾日益突出,这对社会经济的发展提出了更高的要求。本文以生态系统服务为切入点,探讨生态系统服务供给与需求之间的平衡关系,提出相应的发展建议,以期缓解生态系统服务供给与需求之间的空间失衡与异质性,从而为区域经济可持续发展提供一定科学依据。文章以长三角城市群209个区县为研究单元,分别核算其生态系统服务供给与需求值,引入梯度分析,据此分析生态系统服务供
“公益”正在成为公众热议的话题,“公益事业”也正在成为社会发展的重要内容。一家优秀的企业除了为社会提供高品质的产品和服务之外,同样需要积极参与社会公益活动,去承担企业