论文部分内容阅读
文字作为高层语义信息是人类思想和感情表达的重要载体,包含非常有价值的信息,对于人们的日常生活是不可或缺的。随着互联网的发展以及智能手机、数码相机等移动终端的普及,海量的图像不断涌现出来,尤其是自然场景中的图像,其中的文本信息不仅是对场景的重要补充,也是场景理解非常重要的线索。因此,自然场景图像中的文本检测已经成为了近年的研究热点之一,其应用十分广泛,例如人机交互,图像搜索,工业自动化和车牌识别等等。对于传统的光学字符识别技术,已经有了相当成熟的解决方案,在处理文档文本方面取得了令人瞩目的成果。但是,由于文本的多样性、背景的复杂性以及其他外界因素的干扰,自然场景图像中的文本检测依然面临着诸多挑战。针对现有的自然场景文本检测算法准确率尚未理想的问题,从连通分量的提取与剪枝、连通区域的分类和多方向候选文本行的形成与分类三个方面进行算法的改进,提出了一种基于行特征和改进型卷积神经网络的文本检测算法。本文的主要工作和贡献具体如下:(1)采用增强的最大稳定极值区域得到连通分量,可以分割因模糊而相连的字符像素,以及字符连通域的孔洞。采用结合平滑度的剪枝操作将重复嵌套的最大稳定极值区域剪枝,得到孤立的连通区域,便于后续的连通分量分类。(2)在对连通区域进行分类时,对传统的卷积神经网络算法进行改进。为了平衡准确率、召回率、时间复杂度、卷积层数以及阈值之间的关系,经过大量的实验对比,确定了最佳的卷积层数和阈值。采用了对特征学习能力更强的四层卷积,足以提取字符和背景的深层特征,显著提高文本检测的准确率,同时不会增加太多计算量。降低了阈值,大大提高了文本检测的召回率,同时准确率也不会降低太多,因为四层卷积增加的准确率足以弥补此时准确率下降的不足。(3)在多方向候选文本行的形成过程中,提出了基于行特征的字符合并方法,操作简单,效果却十分惊人。在多方向候选文本行的分类过程中,提出了基于C4.5决策树的分类算法,利用机器学习算法分类具有更强的鲁棒性,进一步对候选文本行分类,得到最终的文本行。本文从以上三个方面对文本检测算法进行改进。所提算法在ICDAR2013、ICDAR2015和MSER-TD500数据集上分别进行实验,实验结果表明:本文提出的文本检测算法在处理模糊、透视变形、极端光照等不利因素影响的多方向文本图像均能取得较为理想的检测效果,该算法能显著提高自然场景文本检测的准确率和召回率,且适用于任意方向、语言和字体的文本。因此,本文算法具有良好的文本检测性能和更强的鲁棒性。