论文部分内容阅读
以单据、证件、海报为代表的文档图像在人们生活中扮演着重要角色,有效识别和提取这类图像中的文字信息有助于人们更好地理解图像的内容。同时,随着智能移动终端的普及,端侧文档图像分析的需求日益提升,如在个人证件、商业合同等应用场景中,人们更加希望在移动端离线环境下直接进行文字识别,从而避免因数据传输等因素造成隐私泄露。然而,目前大多数基于深度学习的文字识别算法更注重深度神经网络的设计,难以适应移动端实时运行的需求。针对上述困难和挑战,本文深入研究了适用于移动端实时检测的图像文档文字识别问题,提出了一种基于可微二值化的端到端文档图像文字识别新算法;在此基础上,针对票证识别这一具体应用场景,进一步提出了基于弱监督的高效票证结构化识别算法。本文具体工作如下:1.针对目前基于深度学习的文字识别方法难以满足在移动端实时运行的需求,本文从提升神经网络传播速度和缩短算法后处理时间两个方面进行优化,以特征共享的方式将检测流程和识别流程融入到同一网络中,并采用轻量级的主干网络和特征融合方式缩减神经网络的传递时间。此外,本文将以往耗时较长的文字检测后处理操作尽可能简化,将语义分割的二值化阈值作为可微的变量放入神经网络中优化,在后处理时只需简单的二值操作即可精准的从图像中分割出文字区域以及分隔不同的文字实例。为了提升算法对密集长文本的检测识别性能,本文基于分割的思想设计端到端的识别算法,以局部感受野实现对整个文本行的建模,避免因感受野不足造成检测框无法覆盖完整文字实例的情况。在几个基准数据集上的实验表明,本文提出的算法在性能和效率上都达到了领先水平,例如在收据数据集SROIE中,F1值和速度比端到端的文字识别算法FOTS分别提升了 3.6%和2.9fps(frames per second),比检测-识别两阶段的算法CTPN-CRNN提升了 22.9%和9.7fps。2.对于票证这类特殊的文档图像识别场景而言,其面临真实样本稀缺和字段解析繁琐两大挑战。为此,本文针对这类图像设计了基于弱监督的结构化识别算法:(1)基于风格迁移的思想提出了票证数据扩充方案作为识别算法的预处理步骤,往空白的模板中绘制虚拟的用户信息,再通过生成对抗网络对其施加各类风格,从而大规模地生成风格多样的训练数据;(2)为了从票证图像中解析出与应用相关的字段(如火车票中的乘车人、乘车站、到达站等内容)并以结构化的形式输出,本文在算法中提出了计算量极低的区域感知模块,替换以往的文档识别算法中显式的文字检测操作,该模块以弱监督地形式在图像中自适应地寻找感兴趣字段所在的区域,经过全局平均池化后,每个字段都会对应一个特定的特征序列,后面接以识别模块可直接输出包含每个字段的结构化识别结果,避免了繁琐复杂的解析过程。实验表明,在各个基准数据集(不含扩充生成的数据)上,本文提出的算法从准确率和速度两个方面都超过了以往基于检测识别的算法。如在火车票数据集上,准确率和速度比PixelLink-CRNN提升了 6.8%和12.3f ps。使用风格迁移对训练数据进行扩充之后,本文提出的算法在火车票数据集上进一步提升了近10%的准确率。