论文部分内容阅读
自然场景文本检测作为目标检测的一种,旨在定位自然图像中的文本,在各种文本读取系统中起着重要作用。自然场景文本检测的方法有很多,大致可以分为传统方法和基于深度学习方法。传统方法需要人工设计复杂的特征提取算法,并且有多个步骤组成,通常优化难度大且算法效率低下;基于深度学习的方法,通过卷积神经网络主动学习和提取文字区域特征,避免了复杂的人工设计的特征提取算法。具有步骤简单,可进行端到端训练,且易于调参和优化的特点。相较于传统的光学字符识别(OCR),自然场景文本由于背景复杂、干扰性强,具有更大的检测难度。同时受拍摄角度和光照等因素的影响,自然场景中的文本并不总是正面的和水平的,而是呈现出任意的方向性、透视、扭曲等现象。现有的自然场景文本检测算法,仅能够检测水平文本或近似水平的文本,而对于倾斜文本的检测效果十分糟糕。本文在通用目标检测算法Faster R-CNN和SSD的启发下,针对自然场景方向文本检测进行了一些特殊的设计,提出了一个可进行端到端训练的全卷积神经网络,它只包含卷积层、池化层和非极大值抑制层。为了更好的匹配自然场景中任意方向的文本区域,分别设计了旋转矩形框和四边形框两种表示方法来代替Faster R-CNN和SSD中的水平矩形默认框表示。预置默认框没有采用类似于Faster R-CNN和SSD中手动设置纵横比的方法,而是利用数据集中真实文本框的先验知识,对数据集中真实文本框的纵横比进行聚类。通过聚类得到的默认文本框可以更好的覆盖自然场景中的文本区域,同时减少特征图每个位置上默认文本框的数量,以提高算法的计算效率和速度。针对旋转矩形框表示和四边形框表示,分别设计了不同的IOU值计算方法和匹配算法。具体为,利用三角剖分的思想把旋转矩形框相交区域切分为三角形进行计算。对于四边形框表示使用其最小外接水平矩形框来进行IOU值计算,避免四边形框不规则相交区域面积的计算难题,降低了算法的复杂度。本文在多个特征图层上对文本框进行预测,提高了算法对于自然场景图像中不同尺度文本的检测能力。为了对算法的性能进行评估,在ICDAR2015倾斜文本基准数据集上进行了测试。其中,旋转矩形框版本取得了73.8%的准确率和0.764的F-measure值,四边形版本取得了77.1%的准确率和0.777的F-measure值。为了验证算法对于自然场景水平文本的检测效果,还在ICDAR2013水平文本数据集上进行了测试。测试结果表明,本文的算法不仅可以对自然场景任意方向文本进行有效检测,同样适用于对自然场景水平文本进行检测,在准确率和速度两者之间取得了良好的平衡。