论文部分内容阅读
随着网络和移动设备的发展,我们生活中越来越多的场景需要机器去理解图像中的文本信息,而图像中的文本检测作为理解文本信息的前提,受到越来越多的研究者的关注。复杂背景图像中的文本检测是模式识别和图像处理中的重要的研究方向,但由于文字本身大小、颜色等的多变化以及背景的多样性使得文本检测的结果并不理想。目前很多研究者关注的是中英文检测,但作为使用人数众多的语言,做好维语检测的工作意义重大。本文主要是针对复杂背景图像中的维语文本检测,提出了一个高效的算法,并相应地开发了一整套鲁棒的文本检测系统。如何有效地提取候选文本连通区域一直是图像和视频中文本检测的重点问题。针对这个问题,本文分析了在文本检测领域为众多研究者所采用的最大稳定极值区域(Maximally Stable Extremal Regions,MSERs)算法。MSERs算法具有仿射不变性和稳定性的特点,但是对于文本与背景颜色对比不明显的图像,检测的效果并不理想。结合MSERs算法的优点和缺陷,本文提出了一个通道增强MSERs (Channel-enhanced MSERs)算法。针对复杂背景图像中的维语文本特点,本文算法的主要贡献如下:首先,通过通道增强MSERs算法进行候选文本连通区域的检测,这一步可以得到绝大部分的文本连通区域,但是也包含一部分非文本的噪声。接着,对于得到的大量的文本候选区域,先通过启发式规则去掉其中一些简单的非文本区域,再提取文本非文本的方向梯度直方图(Histogram of Oriented Gradient, HOG)特征,使用带一个多项式核的支持向量机(Support Vector Ma-chine, SVM)分类器进行文本/非文本的筛选。文本非文本的分类是文本检测之中的重难点问题,分类的准确度直接关系到整个系统的性能。然后,对于剩余的MSERs,具有相似特征的区域被连接成候选文本行,对于一些不完整的文本行通过一个扩展算法扩展成完整的文本行。最后,通过基于文本行的启发式规则去掉其中的一部分文本行噪声,最后提取文本行非文本行的一组纹理特征,使用随机森林(Random Forest)分类器进行文本行的筛选。为了验证上述算法和本文系统的性能,本文构建了一个新的训练测试数据集IMAGE570。本文系统在IMAGE570的测试数据上的F-measure达到85%,大大高于已有最先进的算法75.5%的效果。