论文部分内容阅读
随着电子设备的广泛普及和互联网技术的快速发展,人们的日常生活中的信息传递越来越多的以图像的形式进行。图像中包含丰富的信息,其中文本是一类对理解图像有着重要作用的信息,准确的检测出图像中文本有助于识别文本和理解图像。受益于深度学习的迅猛发展,检测场景图像中出现的文本的技术也取得了长足的进步,很多基于深度学习的场景文本检测算法能够非常有效的检测出场景图像中的文本,但是这些有效的方法都是以大型深度神经网络作为基础网络进行特征提取,因此这些方法的模型往往都非常大,参数量很多,检测速度也较慢。场景文本检测作为一种面向应用的技术,现实应用场景通常不仅要求模型能够准确有效的检测出文本,而且对模型的大小和运行效率也有着较高的要求。传统的大型的场景文本检测模型往往不能满足实际应用场景的需求,如何设计出小型化的文本检测模型并且高效的检测出场景文本已经成为一项重要的研究内容。近些年来,场景文本检测的任务一直备受相关研究人员的关注,成为图像研究领域的热点方向之一。一方面是因为场景文本检测有着极大的研究和应用的价值,应用在诸如自动驾驶,增强现实等领域有着巨大的潜力。另一方面在解决场景文本的检测的道路上仍然充满着巨大的挑战,场景文本的分布呈现着随机性、多样性、不规则性等特征,很难进行准确的检测。以深度学习为基础的场景文本检测方法虽然行之有效,但往往规模过大,难以应用到实际的生产和生活场景中去。本文在考察了众多的基于深度学习的场景文本检测模型的情况下,针对场景文本的特点以及更贴近实际应用的场景文本检测的需求,提出两个基于深度学习的场景文本的检测模型。本文的主要工作和创新点列举如下:1、考虑到场景文本的具有多方向、多尺度、形状不定、位置随机等特点,常规的四边形框难以对其进行准确的检测,而准确的检测对于进一步的文本识别又至关重要,为了高效而准确的检测出场景文本,本文提出了基于双分支特征融合的场景文本检测方法(Dual-Path Feature Fusion based Scene Text Detection,DPFF)。该方法采用轻量级的神经网络EfficientNet-b3进行特征提取,使用双路分支进行特征融合进而进行场景文本的检测。一路分支使用特征金字塔网络结构来融合不同层级的特征;另一路分支使用空洞卷积空间金字塔池化结构来扩大感受野,然后融合两个分支处理后的特征图,这种方式能够使得在小幅增加计算量的同时获取更多的特征,弥补小型网络提取特征不足的问题。最后使用渐进扩展算法处理分割图,得到最终的检测结果。在三个公开的数据集上的实验证明DPFF模型不仅能够有效的检测出多种场景文本,而且具有模型较小速度较快的优势。2、针对自然场景下出现的大多数文本为较为规整的多方向文本的特点,本文提出了一个基于EAST模型改进的场景文本检测模型Light-EAST。Light-EAST使用轻量型网络MoGA-A作为主干网络提取不同层级的特征,然后采用自上而下和自底向上两种方式地构建两种特征金字塔网络,两个特征金字塔网络并行运行,之后融合在一起。自上而下构建的特征金字塔对于小物体更为敏感,自底向上构建的特征金字塔对大物体更为敏感,融合两种特征金字塔能够起到相互补充的效果,使得模型更好的检测出尺度不固定的场景文本。最后模型使用融合后的特征预测出文本框的顶点的坐标,然后再使用非极大值抑制算法(Non-Maximum Suppression,NMS)筛选出得分较高的文本框,获取最终精确的文本检测框。实验结果表明Light-EAST模型能够对多方向场景文本进行高效的检测。