论文部分内容阅读
图像中的文本包含大量有价值的信息,是智能控制系统和信息检测与检索系统的重要处理对象。手机及各种便捷式图像获取设备的普及使得越来越多的信息载体以图像或视频的形式存在,让计算机代替人来处理、识别和理解图像中所包含的文字信息有强烈的应用需求,然而计算机对图像文本信息的识别和理解能力与实际应用要求尚有不小的距离。图像中文本信息的有效提取一直受到研究者的关注,尤其是复杂背景中的文本信息提取技术依然是急需解决的技术难题。本文研究工作着眼于对手机和相机等便携设备拍摄的具有复杂背景的图像中检测和定位文本信息,通过分析复杂背景图像中文本的固有特性,研究了三种文本检测和定位算法,实现了一个文本信息提取与识别系统。本文的主要研究成果和贡献包括:(1)提出了一种基于纹理和统计特征的文本检测和定位方法。采用简化的均值偏移方法对图像进行平滑滤波,对图像进行去噪的同时能保留变化相对较强的细节信息:在边缘图像中根据文本的纹理特性构建像素的笔划特征,去除非文本像素;利用文本的统计特征,去除非文本区域块。实验表明,该算法具有较快的速度和较高的召回率,尤其对处于复杂背景或与背景粘连的文本比较有效。(2)提出了一种基于改进的视觉关注模型的文本检测和定位方法。对Itti视觉关注模型进行了改进,一是高斯金字塔的层数可以根据图像的大小自动调整;二是根据字符的特性选择强度特征图作为显著图,去掉可能弱化文本区域的归一化过程;三是为了突出显著图中的细节信息,获取显著图的时候对特征图进行上采样,得到与源图像尺寸相同的显著图。利用字符边缘点的方向分布呈对称性的特点对连通元做初步过滤后,采用显著图作为掩膜来验证候选文本区域的真伪。实验表明,该算法具有较好的检测性能,能够有效地检测出对比度较弱的文本区域。(3)提出了一种基于尺度空间的文本检测和定位的方法。改进了边缘检测的模板,将4个方向的Sobel算子模板中两个对角线方向的模板替换为对应方向的脊线算子模板,以改善文本和背景粘连的处理效果。利用尺度空间中拉普拉斯-高斯算子最大响应值的特性来滤除非文本块,该响应值在尺度上往往和字符的笔划宽度对应,并且分布在笔划的交界和末端,利用候选文本区域的笔划宽度作为启发条件,寻找尺度空间中是否有对应的较强响应点存在,结合这些点的分布情况滤除非文本区域。实验结果表明该算法具有较高的精确度。(4)实现了一个自然场景图像中的文本自动检测与识别系统。对于输入的自然场景图像首先利用文本检测和定位方法给出图像中的文本区域,然后对检测出的文本区域在二值化后进行尺度归一化处理,最后利用一个字符识别软件提取出文本区域中的文字信息。(5)对三种文本检测和定位方法的性能做了比较和分析,并实验表明每种方法各有优缺点,基于纹理和统计特征的文本检测和定位方法的整体性能指标虽然低于其余两种方法,但该方法对于复杂文本背景的图像比较有效;基于视觉关注模型的文本检测和定位方法的性能稍逊于基于尺度空间的文本检测和定位的方法,但该方法能够成功检测出对比度较弱的文本区域;基于尺度空间的文本检测和定位方法的整体性能指标最高,尤其是在精确度上具有优势,能够有效去除和文本类似的背景区域。