论文部分内容阅读
目前,自然场景下的文本检测与识别方法是计算机视觉领域中的一个重要的研究方向。一方面,作为实现完全图像理解的重要环节之一,自然场景下的文本检测与识别方法具有很高的研究价值;另一方面,在包括文档分析、智慧城市、工业检测等领域在内的诸多应用场景中,高性能的文本检测和识别系统也有着重要的现实意义。本文首先对基于传统机器视觉和深度学习方法的文本检测和识别方法中的代表性工作进行了系统地梳理和总结,并对其中部分主要方法的思想、原理和优缺点等进行了详细阐述。基于上述分析,本文针对现有的文本检测和识别方法中的不足之处提出了具体的改进方法。本文主要工作如下:(1)基于分水岭分割的高效自然场景文本检测算法研究。第一,针对目前主流的文本检测算法普遍不能良好地建模文本区域边界的问题,提出了使用分水岭分割建模文本边缘的文本检测方法,并基于该方法设计实现了完整、高效的文本检测模型;第二,针对文本检测方法对训练数据的客观要求,设计了旋转、缩放、拉伸、裁切、重采样、色彩变换等六种数据增强方法;第三,针对该模型的损失函数的特性,设计了针对性的在线难例挖掘方法。(2)基于全卷积网络的高效自然场景文本识别算法研究。第一,针对用于文本识别的特征提取网络中普遍存在的模型容量低、数据需求高等问题,设计并实现了“残差化的序列提取网络”;第二,针对文本识别中多层循环神经网络梯度传播路径过长、计算成本较高、训练较为困难等问题,设计并实现了完全使用卷积神经网络构建的“全卷积序列解码器”,该网络与上述序列提取网络共同构成了完整的、完全使用卷积神经网络构建的文本识别方法。第三,针对待识别图像中存在的旋转、扭曲等形变问题,设计了使用空间变换网络进行图像自适应校正的改进方法。(3)针对本文提出的文本检测和文本识别模型,在ICDAR 2013、ICDAR 2015和TD-500等数据集上进行了充分实验。实验证明,相对于各领域的主流方法,本文提出的文本检测方法的计算成本相对下降43.03%,检测精度相对提升9.59%;本文提出的文本识别方法的计算成本相对下降73.47%,识别精度相对提高9.75%。实验表明,本文提出的文本检测和识别方法具有较强的实用性,可应用于典型的文本检测与识别系统中。