论文部分内容阅读
文本定位作为场景图像文本信息处理的重要模块,具有十分重要的实际应用价值和理论研究意义。经过最近十几年的发展,自然场景图像中文本定位技术取得了一定的进展;然而,由于场景图像中文本信息所特有的复杂性以及外界环境因素的干扰,关于自然场景图像中文本定位的研究仍具很大的挑战性。本文结合笔画宽度变换(SWT)算法和最大稳定极值区域(MSER)算法的优点,提出一种新的场景图像文本定位方法。具体如下:首先,利用MSER算法检测图像,提取图像中的文本信息,获得最稳定极值区域。初提取的最大稳定极值区域往往呈现不规则的状态,这为后续的文本定位工作增加了一些阻力。因此,本文采用基于仿射不变量的方法将不规则的候选MSERs区域拟合成椭圆。然而,拟合之后,一些背景区域也被当作字符处理。为了能够剔除这些非文字区域,本文制定了相应的过滤策略,主要包括:基于字符高度与宽度的限制条件、基于字符宽度与高度比值的限制条件和基于字符边缘密度的限制条件。实验证明:经过上述过滤机制筛选后,可以有效剔除非文本区域,得到文本候选区域。然后,利用SWT算法提取最大稳定文本候选区的笔画特征。初提取的笔画宽度图出现许多非文本元素,对后续操作形成干扰。为了能够剔除这些干扰因子,并保留文本区域,本文制定了一系列启发性规则,主要包括:(1)限制字符宽高比的取值范围,以去除一些过长或过短的连通区域;(2)限制连通区域直径与笔画宽度中值比值的范围;(3)给出字符高度的限制条件,以防止一些过大或过小的文本区域被删除;(4)图像阈值设定为连通区域笔画宽度平均值的一半,以剔除如树叶等常见的干扰元素。此外,为了使字符能够连接成文本行,本文定义了两个候选连通分量应满足的包括笔画宽度中值比、高度比值、字符间距等在内的限制条件。最后,从ICDAR2003数据集中抽取了具有代表性的图片进行实验验证。结果显示,本文提出的MSER+SWT定位方法取得了较好的定位效果(准确率高达76%,召回率为61%),且文本定位速度得到了显著提高。