论文部分内容阅读
文本广泛存在于自然场景中,这些文本通常包含着重要的语义信息,如路牌上的街道名称、工业仪表上的读数、广告牌上的商品名称等等。正确的检测并识别自然场景中的文本对于理解场景内容有着重要的意义。自然场景中的文本检测与识别有巨大的应用前景,如图像视频检索系统、图片管控、票据自动录入等,因此在近几年得到了学术界的广泛关注。不同于传统的光学字符识别,自然场景中的文本种类多样,布局多样,没有固定的版式。此外场景文本的背景高度复杂,且面临低分辨率、噪声、遮挡等各种问题。上述种种因素使得自然场景文本检测与识别成为一个极具挑战的任务。本文针对自然场景下的文本检测与识别进行了研究。探讨更加简洁的算法设计以进一步提升自然场景文本检测算法的性能和速度,提出了三种新颖的基于深度学习的场景文本检测算法,并对各自的适用范围进行了探讨。探讨更鲁棒且高效的场景文本识别算法,提出了一种新颖的基于深度学习的场景文本识别算法并在标准数据集上对算法进行了测试。具体来说,本文的研究主要包括以下内容:1.基于多尺度特征融合的快速文本检测算法:此前基于语义分割的场景文本检测算法流程复杂,后处理繁复。因此本文提出了一种基于多尺度特征融合的快速文本检测算法。该算法基于语义分割与直接回归,算法流程简洁,仅由一个全卷积神经网络和标准的非极大值抑制算法构成。在网络结构设计时引入多种考量以减少参数量,加快检测速度。该算法在多个场景文本检测数据集上取得了业界领先的结果,且能够在720×1280大小的图像上以11.1帧每秒的速度运行远超之前的大多数算法。2.基于端点检测的长文本检测算法:针对现有算法由于网络感受野有限而导致的长文本检测性能不佳的问题,在前一方法的基础上提出了一种基于端点检测的长文本检测算法。该算法在设计时引入了文本端点检测的思想,再以边界生成算法作为后处理,可以很好的避免因网络感受野有限而导致的长文本边界预测不准确的问题。多个公开数据集上的结果充分验证了算法的有效性。无论是在长文本较多的数据集上,还是普通数据集上,算法都取得了业界领先的结果,进一步提升了场景文本检测算法的性能。3.基于渐进扩张的不规则文本检测算法:针对不规则形状文本的检测,在本文所提第一种算法的基础上,提出了一种基于渐进扩张的不规则文本检测算法。该算法通过渐进扩张的思想实现文本实例分割,从而实现不规则形状文本的检测。在公开数据集上的测试结果充分验证了算法的有效性。4.基于双解码层的场景文本识别新算法:针对现有场景文本识别算法训练速度慢、识别结果不鲁棒的情况,本文提出了一种基于双解码层的场景文本识别新算法。该算法基于卷积神经网络-循环神经网络的基本架构,通过引入一个额外的解码层分别对场景文本的上下文和字符进行建模。该算法端到端可训练,收敛速度快且识别性能优异。在多个场景文本识别数据集上的测试结果均达到了业界领先的水平。