论文部分内容阅读
在互联网上,搜索引擎Google、百度、Bing等改变了整个时代,便捷了所有人的生活,然而它们是基于文字搜索的,对于图片和视频等基于内容的搜索还不大成熟。随着成千上万的视频传上互联网,对浏览和检索视频数据的工具需求越来越迫切。图像文字信息提取系统能够将图像中的文字检测出来并识别,自动建立图像索引,随后传统的搜索引擎就能够对图像进行检索。完整的图像文字信息提取系统包括检测、定位、提取、增强和识别图像中的文字,一般也把这个过程归纳为主要的两步:文字检测和文字识别。本文研究的是文字检测,包括字幕文字的检测和场景文字的检测。在检测字幕文字时,本文改进实现了一种基于区域的方法,先用边缘检测算子得到图像的边缘信息,再计算其最大差分标准图,采用局部阈值法将其二值化,然后利用游程平滑算法将文字连接成文字串,最后经过区域分析定位文字区域。本文方法原理清晰,计算量小,鲁棒性高。检测场景文字时,本文基于MSER和SWT算法,提出了一种新型的算子GSWT用于检测文字。最稳定极值区域(MSER)在模糊、低对比度和低光照、彩色和纹理变化的情况下鲁棒性较好,而GSWT是检测文字笔划的可靠方法,二者结合使用可以提高文字检测的准确率。考虑到场景文字中可能含有噪声,此时原来的方法会受到大幅的影响,一方面噪声的增多,使得MSER区域增多,给GSWT带来了计算量的增大;另一方面噪声的出现,使得虚警的概率升高,文字提取的准确率会下降。因此,本文探讨了两种保持边缘平滑滤波器(EPSF)——导向滤波器和自适应流型滤波器。在处理和分析含噪声的图像文字时,EPSF能够过滤噪声,同时文字的边缘信息得到保留,此时基于MSER和SWT的方法依然可行。本文仿真实现了基于区域的字幕文字检测系统和基于MSER和GSWT的场景文字检测系统,对标准数据库进行的测试表明,本文所实现的方法达到了同类较先进的水平。