论文部分内容阅读
自然场景中,文本信息为理解场景内容的重要信息。文本检测为进行图像内容分析的必要步骤,同时也是文本检测和识别系统的基础。由于自然场景不仅背景复杂且文本形式多样,检测自然场景图像中的文本信息仍然面临巨大挑战。因此,研究一种鲁棒性较强的文本检测算法具有重要的现实意义和应用价值。近年来,由于最大稳定极值区域(MSER)提取算子具有良好的仿射不变性,其在目标检测领域得到了广泛应用。传统MSER方法提取极值区域时,由于灰度图像的像素点灰度相似,导致极值区域提取存在过度融合现象。因此,为提高文本检测的准确率,本文采用了一种改进的MSER方法来得到文本候选区域,再利用朴素贝叶斯模型对文本候选区域做进一步筛选。本文主要工作如下:1)比较深入地研究了 MSER特征检测子的原理和极值区域提取过程,并对传统MSER方法提出了改进。由于传统MSER方法的检测结果区域中存在一些字符丢失或粘连的现象,本文采用一种基于边缘保持的MSER改进方法,实验表明,在数量和质量上,该方法得到的候选区域都要更好;同时,为更好利用图像的彩色信息,并提供更加丰富的文本候选区域,本文提出了一种在HSI色彩空间的H、S和I三个通道上基于边缘保持的MSER改进方法。实验表明该方法能够得到更加丰富的文本候选区域。2)为实现对候选区域的进一步筛选,本文研究了文本与非文本间存在的一些明显特征及朴素贝叶斯模型。本文提取了笔画宽度特征(SW)、色彩感知差异特征(CPD)和边缘梯度特征(eHOG)三个特征。在ICDAR2013数据集的训练集上针对文本和非文本,利用朴素贝叶斯对其进行学习得到文本和非文本的特征分布;在ICDAR2013数据集的测试集上,根据贝叶斯公式得到特征的后验概率。3)研究了图割算法,由得到的特征后验概率,以及结合字符的笔画宽度和色彩差异两个特征,构建了最小化能量模型,利用最大流最小割理论,对候选文本区域进行一个二值化标记及区域合并,确认文本区域;实验表明该方法对字符区域分类的准确性远远优于仅利用启发式规则。最后,对最终得到的文本标记区域,利用基于均值漂移(meanshift)的聚合框架构建文本行,完成文本检测。本文中,在ICDAR2013文本检测比赛数据集的测试集上对本文算法进行验证,并将得到的实验结果提交到ICDAR2013提供的公开验证平台上进行验证,验证表明针对绝大多数自然场景图像,本文算法能有效地实现文本区域提取。