论文部分内容阅读
光学字符识别(OCR)现在主要应用在文档识别及证件识别。文档识别可以将印刷文档数字化以快速准确提取有效信息,证件识别则是将证件扫描件或复印件数字化,从而提高工作效率及降低工作强度。作为人工智能领域的一个分支,深度学习可以提高OCR的识别的适用范围,应用于OCR的文字区域提取可以增强OCR对文字的提取准确率,提高OCR的准确率。本文通过分析研究OCR的三个关键问题:文字区域检测,字符切割,识别,并分别对三个问题结合深度学习进行优化。先研究三个关键点在实际中可能存在的问题,并结合卷积神经网络的方法进行适当的改进与优化,最终完成基于本文研究方法的OCR识别系统。提出并实现针对证件图像的基于深度卷积神经网络的文本区域提取方法。本文采用基于深度卷积神经网络的方法,使用固定宽度,不同高度的文本序列框对图像进行检测,然后再将文本序列框组合成文本行作为输出。此过程中对于图像中文本区域位置的精确定位及准确定位都是本文中的亮点,另一方面,使用深度卷积神经网络对于文本区域的检测方都在速度都是一个巨大的难题。本文是基于快速区域卷积神经网络的方法,采用其中的一些算法思想,避免了大量的重复卷积计算,兼顾了效率与准确度,使其处理速度能够实现一个实时的证件识别系统。使用针对证件图像文本行图像的二值化方法并提出一种基于神经网络反馈的字符切分方法,对字符切分进行优化。本文通过研究发现字符切割的难点主要在于汉字、英文及数字的混排导致的复杂场景。通过对字符切割方法的研究,使用一种基于神经网络的方法对所提取的文本行基于像素点进行判断而进行二值化,再结合垂直投影方法对字符切分,以提高OCR识别结果的正确率。提出并实现针对证件图像的基于深度卷积神经网络的字符识别模型,并构造针对身份证图像的训练数据集。识别这个关键点的难点在于其类别数量多所导致的识别的准确率问题,本文通过对各种OCR识别的方法进行研究,借鉴各种方法提出一种基于深度卷积网络的识别模型提高其准确率,并结合上下文进行优化。基于上述的各项技术的理论实现一个OCR证件识别系统。系统主要分为文本区域定位,字符切分及识别,通过实验分析,本文区域定位采用的深度卷积神经网络方法可以具有更好的泛化处理能力。