论文部分内容阅读
随着机器视觉的发展,自然场景下文本信息的获取成为其中一个备受关注的研究方向。因为文本信息能准确地传达出场景内容,帮助对自然场景的理解。然而自然场景的复杂性与文本的多样性给文本检测带来极大的困难。本文从自然场景文本检测的技术难点出发,针对任意形状的灵活文本和多尺度文本的相关检测算法进行深入研究,通过结合最新的深度学习理论研究和网络模型定点化加速技术,提出两种适用于不同应用场景的文本目标检测模型。本文研究工作的具体内容如下:(1)自然场景中文本区域的大小差异极大,直接使用某一特征层对所有尺度进行预测,其性能一般较差。本文针对多尺度目标检测对多层级特征图的需要,通过在特征提取网络后增加多层降采样卷积层,使用U形对称结构在上采样卷积层中直接拼接或者逐点累加前面的卷积层,从而获得多尺度的特征信息。其次,通过减小模型中预训练网络模型与再训练输入图像尺度之间的分布差异,尽力使预训练数据中目标的尺寸接近被检测文本的大小,从而在不改变网络结构的情况下,提高文本检测模型的性能。(2)本文提出了一种基于Mask R-CNN[41]算法的高性能文本检测模型,通过重新设计候选框生成网络结构和提出自适应尺度测试机制,进一步提升多尺度、多语言、灵活文本的检测性能。受Mask R-CNN算法的启发,检测器通过生成自然场景图像的实例分割结果来定位文本区域,从而检测任意形状的文本对象。为了解决实例分割算法在区域候选框生成网络中缺乏全局语义信息和不准确的分类得分导致小文本漏检的问题,本文提出了候选框生成网络中的Inception Region Proposal Networks[87](Inception RPN)模块结构和自适应尺度测试机制。对于Inception RPN模块,提出通过不同卷积核大小的多个分支来处理不同宽高比和尺度的文本,融合卷积特征图的多尺度信息,进一步获得更高质量的文本候选框特征,从而提高检测模型的召回性能。这一模块有效的避免了自下而上生成文本候选框过程中的错误累积,只需要数百个文本候选框即可实现较高召回率。对于自适应尺度测试机制,是由于场景文字检测与常见物体检测不同,自然文本通常在大小、尺度、方向上变化极大,并拥有较大的宽高比。为了解决这一问题,算法通过自适应地将测试图像拉伸到与主干网络训练图像一致的大小以获得最大响应。从而可以在不降低大尺度文本检测性能的基础上,进一步提高小尺度文本检测的检测性能。本章模型在公开基准数据集上进行验证,在ICDAR 2015测试数据集上实现了0.90的F1精度,在ICDAR 2017 MLT测试数据集上实现了0.76的F1精度,高于之前提出的最优结果。(3)本文提出了一种基于全卷积网络的轻量场景文本检测算法,用于满足便携设备对于文本检测算法计算效率的需要。受Fully Convolutional Networks[44]算法的启发,为解决大多数高精度文本检测算法无法移植于计算力较差的便携设备中的问题,本文通过对全卷积神经网络的改进,简化了传统anchor-baesd网络中需要进行预设框生成的过程,直接在单一网络上进行文本检测定位。具体的,本文通过引入U形结构对特征提取网络生成的特征进行多尺度融合,解决了特征图在计算过程中不断下采样导致的信息损失,提高了整个模型在多尺度文本区域检测上的鲁棒性。其次,本文通过对位置加权损失函数的改进和文本标注的预处理,在不过多提高计算量的情况下,在一定程度上,提高文本检测精度。通过在公开基准数据集上进行验证,本文所提出的算法在ICDAR 2013测试数据集上实现了0.93的F1精度。进一步的,通过将训练好的浮点数模型进行定点化,并使用OpenCV调用模型进行前向推理,大大提高了模型的计算性能,为未来工业化移植奠定了基础。