论文部分内容阅读
图像中包含大量的文字信息,对基于内容的图像应用而言,准确高效地从图像中提取文字信息是一项非常有意义的工作。但是由于图像中的文字自身的多变性和文字背景的复杂性,自然场景中的文字检测仍然是一项极具挑战的任务。本文提出了两个文字检测方法:基于笔划宽度变换和深度信念网络的文字检测方法和基于最大稳定极值区域和卷积神经网络的文字检测方法。对于前者,本文首先使用笔划宽度变换算法对场景图像做笔划宽度变换,生成笔划宽度图。然后结合边缘梯度信息,将笔划宽度图中笔划宽度相似的像素连通起来,组成候选字符。接着使用启发式的过滤规则以及借助深度信念网络预训练的神经网络分类器,从候选字符中筛选出种子字符。然后使用种子字符生长在笔划宽度、高度、颜色等属性上近似的非种子字符,进而得到字符集合。最后将字符聚合成文本行,得到最终的文字检测结果。对于后者,本文使用最大稳定极值区域算法提取候选字符。然后借助一个级联的卷积神经网络分类器,从候选字符中提取种子字符。接着,使用一个迭代的渐进的生长算法从种子字符生长周围的非种子字符。本文设计了一个同时考虑组件几何特征和外观特征的相似度测量方法,用来评价一个非种子字符是否可以被一个种子字符生长。本文在多个公开数据集上测试了提出的两个方法。实验表明,基于笔划宽度和深度信念网络的文字检测方法,在多个数据集上表现良好。但受限于笔划宽度变换算法无法在复杂背景图像中生成高质量的笔划宽度图,因此该方法并不能取得最好的效果。而基于最大稳定极值区域和卷积神经网络的文字检测方法,在多个数据集上取得了最好的效果,尤其表现在更高的召回率上。这表示使用卷积神经网络作为种子字符分类模型的文字生长机制是非常有效的。