论文部分内容阅读
自然场景中的文本展示了许多信息,并提供了与环境交互的基本工具。文本检测方面,场景文本检测受场景文本比例、尺度和方向的较大差异困扰。本文将特征金字塔机制(Feature Pyramid Networks,FPN)与 SSD(Single Shot Detector)框架相结合,以处理不同比例的文本,并连接局部可检测元素以检测具有不同方向和尺度的文本。与SSD相比,通过放大了深层特征图,以更好地定位大文本并准确识别小文本。文本识别方面,引入残差模块(ReseNet)与注意力机制(Attention)的识别器解决了模型训练时容易产生梯度爆炸、消失等问题,并且能够有效预测长字符,提高识别率。为了处理不同比例、尺度和方向的文本,提出了一种端到端的场景文本检测与识别方法。本文工作如下:(1)通过结合特征金字塔网络和连接段,可以有效地检测不同比例和方向的场景文本。(2)采用更深层次特征金字塔机制与SSD结合的设计,可以有效解决不同规模的文本检测问题,尤其是小文本。(3)由于选择了 SSD样式的检测器,因此所提出的文本检测方法非常高效。(4)用引入残差网络的深度双向递归网络(Bi-LSTM)对文本序列特征进行编码,并将输出作为一系列文本建议。最后通过用引入注意力机制连接时间分类损失(CTC)的解码器完成文本识别。通过在经典的深度双向递归网络中加入残差模块,加快了网络的收敛速度,降低了网络训练难度。通过在连接时间分类损失中加入注意力机制使系统对输入的相关部分比无关部分更加重视,避免了对标签进行额外的对齐预处理和后续的语法处理,以及对当前文本识别中不同序列的权重分配,从而提高了识别率。将所提方法应用于经典文本检测与识别数据集ICDAR2013、ICDAR2015和SynthText中进行实验验证,测评结果表明本文所提方法识别准确率平均达到90%以上,且对多角度、不同尺度和比例的情况具有较好的鲁棒性,是对多角度文本识别研究的进一步探索,对场景文本识别应用落地的有益扩展。