论文部分内容阅读
图像是人们从客观世界获取信息的重要来源。然而,受环境以及成像设备的影响,获取的图像经常存在遮挡、扭曲、光照不均、边缘模糊等问题,导致图像中有效信息不能充分利用。这些低质量图像会给后续图像的处理,譬如图像中文本的定位与识别,带来很大的困难。目前基于深度学习算法的文本定位与识别算法在处理高质量图像时较传统的文档文本定位与识别技术有显著优势,但是在处理低质量的图像时,定位与识别效果仍然不理想。
本文针对提高低质量图像的方法进行研究,通过超分辨率技术增大低质量文本的分辨率,以提高图像质量,为后续图像中文本定位与识别打好基础,使得文本定位更加准确,从而提高字符识别率。论文主要研究内容如下:
(1)对比现有定位方法如EAST、CTPN等场景文本定位算法的优劣,选择CTPN作为文本定位方法,指出低质量图像识别任务中影响文本定位的原因并引入超分辨率重建算法。对比了超分辨率重建中VDSR(Very Deep Convolution Networks for Image Super-Resolution)、LapSRN(Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution)等多种常用网络模型结构,选取LapSRN模型作为本文的超分辨率重建模型。
(2)为使LapSRN模型重点关注低质量图像的细节和边缘信息,采用空洞卷积和普通卷积级联的方式增大感受野,引入卷积块注意力机制,把不同层次的图像特征进行特征融合,充分提取低质量图像的特征信息,优化后的模型能够提高图像的主观视觉效果及峰值信噪比。
(3)采用CRNN网络对低质量道路交通标识牌图像和低质量票据图像进行文本行端到端的字符识别。为了使方案具有更广泛的适用性,探究改进的超分辨率重建方法应用在四组不同识别率的纯英文文本图像上的识别效果。通过实验分析,该超分辨率算法可以应用在不同种类的、不同条件下产生的低质量图像上,具有广泛的应用性。
本文针对提高低质量图像的方法进行研究,通过超分辨率技术增大低质量文本的分辨率,以提高图像质量,为后续图像中文本定位与识别打好基础,使得文本定位更加准确,从而提高字符识别率。论文主要研究内容如下:
(1)对比现有定位方法如EAST、CTPN等场景文本定位算法的优劣,选择CTPN作为文本定位方法,指出低质量图像识别任务中影响文本定位的原因并引入超分辨率重建算法。对比了超分辨率重建中VDSR(Very Deep Convolution Networks for Image Super-Resolution)、LapSRN(Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution)等多种常用网络模型结构,选取LapSRN模型作为本文的超分辨率重建模型。
(2)为使LapSRN模型重点关注低质量图像的细节和边缘信息,采用空洞卷积和普通卷积级联的方式增大感受野,引入卷积块注意力机制,把不同层次的图像特征进行特征融合,充分提取低质量图像的特征信息,优化后的模型能够提高图像的主观视觉效果及峰值信噪比。
(3)采用CRNN网络对低质量道路交通标识牌图像和低质量票据图像进行文本行端到端的字符识别。为了使方案具有更广泛的适用性,探究改进的超分辨率重建方法应用在四组不同识别率的纯英文文本图像上的识别效果。通过实验分析,该超分辨率算法可以应用在不同种类的、不同条件下产生的低质量图像上,具有广泛的应用性。