论文部分内容阅读
随着网络技术的发展,数字化图像和视频增长非常快。随着移动数码相机以及手机等的普及,各种拍摄来的自然场景的数字图像也是到处可见。为了方便管理海量的视频和图像信息,使用户能够快速得定位自己感兴趣的视频和图像内容。产生了许多视频和图像处理及理解的实际需求,进而推动了人们对视频和图像内容的分析和研究。在视频内容分析方面,研究者主要对视频内容的结构化分析和检索技术比较关注;在图像内容分析方面,研究者对场景中获取内容的分析、监控尤为关注。在上述两个领域中,文字作为一种重要的高层语意信息而显示出其重要的作用。此外,还可将提取出的文字从原图像中去除,同时修复被文字所遮挡的背景区域,进而添加上多语种的文字,这对于不同语种间的视频及图像交流和视频及图像的再次使用也是很有意义的。文字行检测实际上也是一种模式识别。不同于其它的典型模式,例如单个汉字的模式,文字行的大小、形状、颜色等都没有固定的模式。而且在很多情况下,文字所处的背景非常复杂。这些都给文字检测带来非常大的困难。所以传统的直接检测图像模式的方法是不能用来检测文字的。本文在对国内外研究现状和所涉及的基本技术综述的基础上,就视频中文字检测算法做出深入探讨,并提出了两种文字检测的方法,第一种文字检测方法是利用边缘检测和局部直方图来定位文字区域。首先,用边缘检测的方法粗略定位可能的文字区域。然后用局部直方图对提取出来的粗略文字区域进行精确的定位,最后利用文字行的结构信息进行过滤,去除似文本的“假”文字区域。这个算法对于背景不是很复杂的视频有比较好的检测效果。第二种文字检测方法运用了文字的内在结构属性和视频帧的时间冗余信息来检测文字区域。首先,根据文字的内在属性设计几个文字检测器,文字有横笔画、竖笔画、对角笔画,相应的文字检测器也有横笔画文字检测器、竖笔画文字检测器、对角笔画文字检测器等。这些文字检测器能够比较精确得将文字像素提取出来,然后将提取出来的文字像素连接成侯选文字区域。不同于以往的文字检测方法,在本算法中,视频帧的冗余信息被用于文字检测阶段,而非文字增强阶段。最后通过基于密度的去噪处理以及结构信息过滤等形成文字行。实验结果显示,这种文字检测效果较好。此外,本文还就视频中文字提取后的后期应用——视频背景修复方法进行初步分析与实现,即:在提取出图像内的文字区域后,本文运用纹理修复技术,将提取出的文字从原图中去除,同时,修复原图中被文字遮挡的背景区域。在一些特定领域中,本文实现的方法取得了较为理想的结果。