论文部分内容阅读
随着近代计算机技术的飞速发展,诸如车牌识别、电子文档识别、商务票据管理、拍照翻译等应用场景随处可见,如果利用光学字符识别(Optical Character Recognition,简称OCR)技术对图像进行自动文字识别减少人们工作,将大幅提高人们的工作效率和生活品质。因此,OCR技术成为了计算机视觉技术中的重要发展方向之一。在自然场景中,获取的文字图像会因为拍摄时的对焦不准、光线不足、噪点太多、角度倾斜、成像畸变等问题,以及文字存在具有不同的大小、字体、颜色、排列方式等差异化问题,导致文字识别准确率较差。因此,针对自然图像中文字区域倾斜导致图片质量较差的问题,本文提出了一体化的光学检测和识别系统,提出基于深度学习神经网络的文字图像检测方法,并且利用循环神经网络重点解决了文字图像识别的难题。具体内容如下:首先针对文字检测模块提出了基于YOLO-text网络的文字检测与校正方法,选取了目标检测网络YOLOv3作为基础,优化改进了YOLOv3不适合做文字检测的缺点。并在YOLO-text的基础上,为解决在自然场景图像中存在非水平文字区域的问题,提出使用“微积分思想”的先检测字母边界框,再将所有字母拼接成完整字符串的方法;同时提出“角度回归思想”识别整个字符串边界框,再对图像中字符串的角度进行校正的方法。其次针对文字识别模块提出了基于STN-text网络的文字识别方法,网络融合了CRNN和空间变换网络,对于非规整、形变、扭曲等情况的输入图像做出校正后再识别以提高识别准确度。此外,本文提出了图像预处理的过程中使用在图像两边自适应地填充黑色区域,而非直接拉伸的方法,减少由于需要统一尺度而过度形变导致的识别不准确情况。本文结合文字检测模块和文字识别模块,提出了一个完整的OCR系统。在实验的对比中,基于YOLO-text的文字检测模块相较其他算法最高提升了3%的F-Measure;基于STN-text的文字识别模块虽未超越CRNN,但相较于传统的文字识别方法展现出了明显的优势;结合了检测和识别模块的完整OCR系统相较于对比其他算法,在F-Measure上也有一定的提升,具有较好的性能。