论文部分内容阅读
目前,基于内容的图像检索和视频检索所采用的特征基本上是低级视觉的特征,如颜色、纹理和形状,而且往往要人工加入关键词和描述信息,以便于组织信息,这就增加了工作量,同时也引入了人为的主观因素,不利于检索。要达到语义级的基于内容的检索是非常困难的,而彩色图像和视频中的文本字符,是图像高层语义内容的一个重要来源,它包含许多非常重要的有用的信息,如街道名称、商店名称、路标、交通标示、字幕等,这些信息对于图像和视频资料的自动注释、索引、压缩等方面有重要的参考作用。因此,通过对它们的检测、识别和分析,再结合已有的检索技术,就有可能在一定程度上达到概念级的基于内容的图像检索。本文以现有的文本检测算法为基础,通过对文本特征研究现状的分析,实验表明了一些图像文本检测算法的不足之处:实验场景过于单一、鲁棒性差;对光照条件不好的图像处理能力较差等。基于这些问题,提出了一个基于多尺度Gabor滤波器和BP神经网络相结合的文本检测算法。该算法首先对HSI颜色空间中的I分量图像进行预处理,利用Sobel边缘检测算子和基于灰度的区域增长算法对一些可能是文本的区域进行粗定位。其次,对这些候选文本区域进行Gabor滤波。运用多尺度的方法,在Gabor滤波后的子图中提取72个纹理特征。然后,用统计的方法对得到的特征进行筛选。最后,把筛选后的特征作为相应区域的特征向量输入BP神经网络,进行分类,得到真正的文本区域。本文提出的文本检测算法,进一步拓展了Gabor滤波器的研究领域,也显著提高了检测算法的准确性。同时对输入神经网络的纹理特征进行筛选,可以改良BP神经网络固有的训练速度慢的缺点。本文算法不仅准确的检测到了图像中的文本,而且达到了较高的检测率。在多种场景中的文本检测实验中验证了本文方法较现有经典方法而言具有更高的灵活性和鲁棒性,尤其在对图像和视频帧中的文本检测都具有良好的准确性,检测率达到96.3 %。