论文部分内容阅读
文本图像识别是机器视觉领域的重要研究课题之一。在近几十年的研究中,人们对非自由的脱机手写字符识别和背景单一的印刷体字符扫描文档识别等任务已经有了成熟的解决方案。伴随互联网规模的扩张和多媒体的发展,人们也开始关注复杂场景下的文本识别任务:包括复杂手写体文本识别、自然场景文本检测识别等。现有文本识别技术多是基于整词图像建模的深度卷积神经网络模型。虽然这一技术在实践中取得了较好的成果,但是仍存在几个问题:其一,在进行深度卷积神经网络训练时,需要大量的标定样本。然而现有的场景文本图像,特别是手写体文本图像,其标定数据较少,不能满足训练的需求。其二,现有的几种识别模型各有其局限性:基于整词编码和整词图像建模的模型的扩展性差;基于字符序列编码的模型识别率低于整词编码模型;基于整词图像建模的模型对于相近词的识别能力较差。其三,在端到端文本识别任务中,文本识别的性能依赖于文本定位的精度,然而在现有端到端文本识别系统中,文本检测很难精确定位到词文本区域。针对这三个问题,本文分别进行研究,并取得了如下研究成果:1.基于二值标签编码网络的少样本词文本识别针对训练样本有限、书写复杂的手写体词文本图像,本文提出一种少样本词文本识别深度学习模型——二值标签编码网络。该网络首先使用深度卷积神经网络进行特征提取,同时使用迭代量化方法对文本标签的PHOC编码进行二次编码,最后通过相关匹配对词文本图像进行识别。在IAM数据集上的实验结果表明,即使使用少量的训练样本,二值标签编码网络也可以取得很好的效果。此外,实验结果表明,基于深度卷积神经网络的特征提取方法,在性能上要优于传统特征提取方法。2.基于深度卷积神经网络集成的多通道词文本识别针对复杂的自然场景图像,本文提出一种基于深度卷积神经网络集成的词文本识别方法。该集成模型首先将输入图像从RGB通道转化到YUV通道。其次使用多种异构深度卷积神经网络模型对YUV三个通道的图像分别进行识别,并对识别结果进行融合。最后,对识别结果进行校正,得到最终的识别结果。在三个自然场景图像数据集(SVT、ICDAR2003、ICDAR2013)上的实验结果表明,本文的集成模型在无标点文本识别、带标点文本识别以及大小写敏感文本识别任务中都取得了很好的效果。此外,实验结果表明,本文使用的集成模型在性能上要优于单独的模型。3.基于识别反馈机制的端到端文本识别针对自然场景端到端文本识别,本文首先提出了应用于端到端场景文本识别的检测-识别反馈机制的通用框架。该框架主要分为三个部分:(1)利用词文本区域的定位结果、识别结果和语言模型进行候选扩展,得到扩展区域候选集合。(2)利用扩展区域候选集合的定位结果、识别结果和语言模型对扩展区域候选集合进行评价,选取最优的区域候选集合。(3)将区域候选集合中的词文本区域候选作为新的输入,重复(1)(2)。在此基础上,设计了基于识别反馈机制的端到端文本识别方法。首先,使用传统文本检测方法对场景图像总的文本区域进行粗定位,随后基于识别反馈机制得到文本区域的精定位结果。最后,对重叠区域的识别结果使用基于字符序列编码的非最大值抑制算法进行归并。在两个自然场景图像数据集(ICDAR2015挑战1、ICDAR2015挑战2)上的实验结果表明,本文模型在场景图像中的文本识别任务中取得了很好的效果。本文提出的基于检测-识别反馈机制的通用框架对于提高识别结果的准确率有很好的效果。