论文部分内容阅读
在信息化社会,人们要处理大量各种类型的文字资料,为了帮助人们快速完成信息录入,文字识别技术应运而生,且具有非常广阔的应用前景。目前市面上比较成熟的印刷体文字识别系统或软件大多只针对某个单一的应用场景,比如发票识别、身份证识别、文档识别等,因此只能识别某一类型的图像和文字,尚缺乏可以识别多种类型多种字体的通用文字识别系统。为此,本文实现了适用于多种类型多种字体的印刷体文字识别算法,识别类型包括书籍、刊物、海报、宣传单、票据等各类含有印刷体文字的纯文本图像,可识别的字体有13种,可识别的字符包括一级、二级汉字及不常用汉字、大小写英文字母、数字和常用标点符号,共6870种字符,支持各类字符混排识别,因此适用范围更加广泛。本文详细阐述了印刷体文字识别技术的算法处理流程,包括图像的倾斜矫正、文本检测、文字识别和结果校验。实现了针对扫描仪、相机等电子设备获取的印刷体文本图像的文字识别算法,并完成了网络的训练。通过扫描仪或相机对纸质文字资料进行采集并生成文本图像,利用数字图像处理技术和深度学习算法完成图像中的文字识别,从而将文字信息快速提取出来,节省了时间和人力成本,在信息处理等方面具有重要的实用价值和理论意义。本文主要工作有以下几个方面:(1)为了解决目前真实图像数据集获取困难的问题,本文完成了大规模印刷体文本图像的合成。该数据集包含丰富的语义信息,在文字特征、背景、模糊程度等各个方面呈现出多样变化,可以很好地提高模型的鲁棒性。(2)本文实现了真实场景下的印刷体文字识别算法,包括基于CTPN模型的文本检测算法和基于CRNN模型的文字识别算法。将两者进行结合,实现了对大篇幅文本的端到端识别。本文在已有研究的基础上,对网络结构及参数进行调整和测试,通过大量的对比实验最终得到了一个适用于印刷体文字识别的网络模型,并表现出良好的识别效果。(3)为了校验识别结果,本文设计并实现了一种基于模板匹配的结果校验算法,并结合匹配度、字符位置等信息,检测是否存在错误识别和缺漏识别的情况,并对识别错字和漏字进行纠正,进一步提高了字符识别准确率,并达到了99.5%。