论文部分内容阅读
视频是一种综合图像、文本、声音多种模态信息的媒体数据,具有数据量大、信息丰富的特点。随着计算技术、多媒体处理技术、网络技术的发展,视频数据急剧膨胀,传统的基于人工标注的视频内容分析技术已经无法满足海量视频数据的管理和检索需求,人们希望计算机能实现视频内容的自动提取,随之基于内容的视频检索技术应运而生。然而视频文件具有非结构化的数据组织方式,是以像素的形式存储目标对象的颜色、亮度和位置等低层信息,缺乏对高层语义信息的直观描述,而且数据量巨大、表现内容多样,因此关于如何实现计算机自动从视频数据中提取高层语义内容的研究成为了视频数据的自动化、智能化管理和检索领域的热点。视频中的文本不仅与视频内容高度相关,为视频内容的自动理解提供了非常重要的线索,而且相比于其它信息更易于提取,因此实现视频中文本信息的自动提取识别对于基于内容的视频数据检索研究具有重要的意义。实现视频中文本信息的自动提取并非易事,文本通常嵌在复杂的背景当中,即使在同一视频中,文本的语言、字体、颜色也表现多样化。本文针对视频中文本信息提取的关键技术进行了深入研究,包括视频图像中文本区域的检测、定位,连续多帧出现的同一文本区域的跟踪,以及文本字符的分割。针对视频中文本的检测和定位问题,提出了一种融合小波特征和局部二值模式特征由粗检测到精确定位实现的视频文本检测定位的方法。首先结合边缘和角点在视频图像中完成潜在文本区域的检测,然后融合小波特征和局部二值模式特征描述纹理并运用基于流行学习的等距离映射法(Isometric mapping, ISOMAP)进行特征降维,最后采用支持向量机(Support Vector Machine, SVM)方法实现文本区域的精确分类并基于梯度密度图实现单个文本行的精确定位。算法通过多特征、多步骤实现视频中文本区域的检测和定位。为了提高视频中文本区域检测定位的效率,提出一种基于模版匹配的视频文本区域跟踪算法。文本区域图像经小波重构所得的边缘图像作为匹配模版,利用基于相关性的归一化的互相关(Normalized Cross-correlation, NCC)测度作为模版匹配度量标准实现视频文本的跟踪,同时应用金字塔匹配策略进行分层次匹配。有效地利用视频中文本的时间冗余特性,实现快速高效的文本区域跟踪,可以避免在每一帧中都执行文本区域检测定位,加快整个视频文本信息提取的速度。视频中的文本通常处于复杂背景当中,本文提出了一种基于多帧融合的视频文本分割算法。首先选择同一文本图像序列中背景简单的图像进行融合,极性判断后得到适合OCR软件的反对色文本图像。针对字符笔画结构多样性的特点,综合考虑字符的灰度特性和边缘特性,对传统的二维最大条件熵进行改进,将基于非降采样Contourlet变换(Non-subsampled Contourlet Transform, NSCT)的最大二维条件熵作为适应度评价函数,利用细菌觅食优化(Bacterial Foraging Optimization, BFO)算法高效的全局寻优能力计算图像分割的最佳阈值。算法有效地减少了复杂背景对文本分割的影响,提高了分割阈值的精确性和视频文本的识别率。另外,本文还提出了一种基于脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)的视频文本分割算法。充分研究了PCNN在图像分割应用中的优良特性,针对视频文本分割具体应用,对简化的PCNN网络模型的参数和输出标准进行改进,在文本分割过程中,基于PCNN的方法不同于传统的阈值分割方法,能够有效地缩小灰度值相近的相邻像素的差别。本文的视频文本分割方法有效可行,对于复杂背景同样具有较强的鲁棒性。