论文部分内容阅读
随着互联网服务和网络基础设施的飞速发展,网络视频服务越来越便利,网络上的视频内容越来越丰富,对这些视频进行监控和检索变的更加必要。在传统的基于标题和标签的方法并不能准确的反映视频内容的情况下,理解视频内容成为了更好的选择。其中视频字幕与视频语义有着较强的相关性,获取视频字幕能够对视频内容进行更加深入的检索与监控。视频字幕指视频中出现的人工添加的文字信息,这些文字通常包含了视频中的人物对话,内容总结等重要内容,能够准确的反映视频的含义。但是,网络视频中的分辨率通常较低,字幕文本都嵌入在杂乱的背景中,无法直接进行OCR识别。为解决这一问题,作者独立设计并实现了网络视频的字幕提取与识别系统,利用计算机图像处理的知识,将嵌入视频的字幕提取并转化成文本格式。系统主要包含字幕的定位与追踪、字幕的增强与二值化、文字识别三个模块。字幕的提取模块将提取过程分解为定位与追踪两个步骤。其中定位步骤用以确定字幕在视频中首次出现,系统利用文本独特的几何特征,采用了基于笔画宽度变换的文本检测方法确定字幕在图像帧中的位置。追踪过程则通过对比两帧字幕区域图像的相似度,跟踪字幕在视频中的停留与消失,追踪的过程有效的减少了字幕定位的次数,并提高了字幕提取的精确度。字幕的增强与二值化模块充分利用了字幕在时间上的冗余性,将追踪后得到的字幕图像进行多帧融合,以达到增强文本,弱化背景的目的。然后系统利用Otsu算法对融合后得到图像进行二值化,将文字从背景中提取出来,得到可以通过OCR技术识别的二值化图像。文字识别模块设计并实现了汉字的识别功能,系统提取了汉字的多种特征,并将这些特征综合利用,融合各个特征的特点,设计并实现了一个多级的分类系统用以汉字识别。经过验证,文字识别模块取得了较好的效果。最终经过实验验证,系统能够较为准确的将视频中的字幕提取并转化为文本文件,并达到了令人满意的识别率。