论文部分内容阅读
场景文字检测是计算机视觉、文档分析等领域的重要研究方向,具有广阔的应用场景,如车牌识别、无人超市、地理定位、盲人阅读、自动驾驶等。尽管经过多年的研究,场景文字检测算法已取得许多研究成果;然而由于场景文字的语种、布局、尺度、字体、外观、方向等变化较大,以及场景图像的背景具有复杂多样性,给场景文字检测任务带来了巨大的困难和挑战。目前,任意方向、任意形状的场景文字检测,以及相近、相邻位置的场景文字检测,仍然具有挑战性。近年来,深度学习在许多计算机视觉问题中取得了广泛成功。本论文基于深度学习技术,面向高效的场景文字检测,重点研究有效、新颖和鲁棒的特征获取方法,设计网络模型,针对场景文字检测任务中出现的问题提出一些解决方案。论文的主要工作及创新点如下:(1)论文提出一种基于文字区域信息预测模型的场景文字检测方法,以解决任意方向的场景文字检测问题。该方法基于文字笔划和文字中心块的思想,将一个文字实例拆分成文字笔划和文字中心块两种成分。文字笔划区域和文字中心块区域分别通过一个结构相同的全卷积神经网络实现预测,并由一个文字边界框生成算法实现两种成分的组合。实验结果表明,提出的场景文字检测方法不仅可以检测多尺度、多方向的场景文字,而且也可以实现多语种的场景文字检测;另外,提出的场景文字检测方法不必特意对场景文字的方向信息进行回归。(2)论文提出一种基于注意力和双向LSTM模型的场景文字检测方法,以解决任意形状的场景文字检测问题。该方法设计了多尺度上下文感知的特征提取模块,来提取上下文信息丰富的特征,以提高方法的精度;设计了双向的LSTM模块,利用字符间的空间序列特性提高方法的精度;设计了注意力模块,对不同层特征的重要性作出估计并实现重新组合,以提高方法的召回率;提出使用文字区域轮廓来表示任意形状的文字区域;另外,提出了一种不规则形状的文字中心块标签生成的算法。实验结果表明,提出的场景文字检测方法可以检测任意形状、多语种的场景文字。(3)论文提出一种基于多级特征增强累积网络的场景文字检测方法,以解决相近、相邻位置的场景文字容易发生的黏连问题。该方法设计了多级特征增强累积(MFEC)模块,实现多尺度、不规则形状的场景文字检测;引入空间注意力模块和通道注意力模块,提高空洞卷积特征表征的累积增强能力;设计了多级特征融合模块,整合不同级别的MFEC特征,实现场景文字信息的自适应编码。实验结果表明,提出的场景文字检测方法可以检测任意形状、多语种的场景文字,克服相近或相邻场景文字间的黏连,在几个公开的数据集上性能表现突出。