视频中文本信息提取技术研究

被引量 : 0次 | 上传用户：wuyi101

【摘要】

：

视频是一种综合图像、文本、声音多种模态信息的媒体数据，具有数据量大、信息丰富的特点。随着计算技术、多媒体处理技术、网络技术的发展，视频数据急剧膨胀，传统的基于人工标注

【作者】

：

李丽洁

【发表日期】

：

2012年期

【关键词】

：

视频文本文本检测定位文本跟踪文本分割

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频是一种综合图像、文本、声音多种模态信息的媒体数据，具有数据量大、信息丰富的特点。随着计算技术、多媒体处理技术、网络技术的发展，视频数据急剧膨胀，传统的基于人工标注的视频内容分析技术已经无法满足海量视频数据的管理和检索需求，人们希望计算机能实现视频内容的自动提取，随之基于内容的视频检索技术应运而生。然而视频文件具有非结构化的数据组织方式，是以像素的形式存储目标对象的颜色、亮度和位置等低层信息，缺乏对高层语义信息的直观描述，而且数据量巨大、表现内容多样，因此关于如何实现计算机自动从视频数据中提取高层语义内容的研究成为了视频数据的自动化、智能化管理和检索领域的热点。视频中的文本不仅与视频内容高度相关，为视频内容的自动理解提供了非常重要的线索，而且相比于其它信息更易于提取，因此实现视频中文本信息的自动提取识别对于基于内容的视频数据检索研究具有重要的意义。实现视频中文本信息的自动提取并非易事，文本通常嵌在复杂的背景当中，即使在同一视频中，文本的语言、字体、颜色也表现多样化。本文针对视频中文本信息提取的关键技术进行了深入研究，包括视频图像中文本区域的检测、定位，连续多帧出现的同一文本区域的跟踪，以及文本字符的分割。针对视频中文本的检测和定位问题，提出了一种融合小波特征和局部二值模式特征由粗检测到精确定位实现的视频文本检测定位的方法。首先结合边缘和角点在视频图像中完成潜在文本区域的检测，然后融合小波特征和局部二值模式特征描述纹理并运用基于流行学习的等距离映射法（Isometric mapping, ISOMAP）进行特征降维，最后采用支持向量机(Support Vector Machine, SVM)方法实现文本区域的精确分类并基于梯度密度图实现单个文本行的精确定位。算法通过多特征、多步骤实现视频中文本区域的检测和定位。为了提高视频中文本区域检测定位的效率，提出一种基于模版匹配的视频文本区域跟踪算法。文本区域图像经小波重构所得的边缘图像作为匹配模版，利用基于相关性的归一化的互相关（Normalized Cross-correlation, NCC）测度作为模版匹配度量标准实现视频文本的跟踪，同时应用金字塔匹配策略进行分层次匹配。有效地利用视频中文本的时间冗余特性，实现快速高效的文本区域跟踪，可以避免在每一帧中都执行文本区域检测定位，加快整个视频文本信息提取的速度。视频中的文本通常处于复杂背景当中，本文提出了一种基于多帧融合的视频文本分割算法。首先选择同一文本图像序列中背景简单的图像进行融合，极性判断后得到适合OCR软件的反对色文本图像。针对字符笔画结构多样性的特点，综合考虑字符的灰度特性和边缘特性，对传统的二维最大条件熵进行改进，将基于非降采样Contourlet变换(Non-subsampled Contourlet Transform, NSCT)的最大二维条件熵作为适应度评价函数，利用细菌觅食优化（Bacterial Foraging Optimization, BFO）算法高效的全局寻优能力计算图像分割的最佳阈值。算法有效地减少了复杂背景对文本分割的影响，提高了分割阈值的精确性和视频文本的识别率。另外，本文还提出了一种基于脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)的视频文本分割算法。充分研究了PCNN在图像分割应用中的优良特性，针对视频文本分割具体应用，对简化的PCNN网络模型的参数和输出标准进行改进，在文本分割过程中，基于PCNN的方法不同于传统的阈值分割方法，能够有效地缩小灰度值相近的相邻像素的差别。本文的视频文本分割方法有效可行，对于复杂背景同样具有较强的鲁棒性。

其他文献

单因子利率模型下的外汇期权定价

金融衍生品定价是金融领域内的一大重要问题,实际应用价值很大,同时又有极大的理论意义。外汇期权即是一种较为复杂的金融衍生工具,在我国市场上也是新近出现。我国现有的外

学位

欧式外汇期权单因子利率模型远期变量变换B-S公式

种衣剂的特点及其应用

分析种衣剂的作用,介绍种衣剂的特点和颜色,并就种衣剂在实际生产中的应用展开论述,以指导种衣剂的使用。

期刊

种衣剂作用特点颜色应用

浅论会计信息市场

在信息时代 ,建立完善的会计信息市场具有其必要性和可能性。研究会计信息市场 ,必须先研究会计信息和会计信息市场的内涵。会计信息市场的基本理论应包括会计信息市场的基本

期刊

会计信息市场事实性会计信息分析性会计信息委托主体假设

自觉用习近平总书记系列讲话精神武装头脑指导实践

领导干部学习习近平总书记系列讲话精神,不仅要掌握其基本内涵,还要掌握其思想精髓,自觉用系列讲话精神武装头脑、指导实践、推动工作。要认真学习把握系列讲话所贯穿的坚定

期刊

习近平总书记系列讲话领导干部学习贯彻

KOH活化法制备活性碳及其应用研究

以滇朴为碳源,通过化学活化法成功制备出高性能的活性碳材料.并对其结构、形貌及性能进行了表征.SEM照片结果表明,利用KOH活化而得到的活性碳材料仍然保留了滇朴的纤维结构.

期刊

活性碳吸附比表面积

基于中文的多模式匹配算法及其应用研究

模式匹配是计算机领域重要研究方向之一，广泛应用于网络安全、信息检索和生物医学等领域中。随着互联网技术的飞速发展，网络中的信息量呈爆炸式增长，对网络安全提出了新的要求。

学位

多模式匹配内容过滤中文字符UTM网关

细旦锦纶织物的适用染料及其染深性的研究

由细旦锦纶制成的服装，不仅具有合成纤维的洗可穿、免烫、尺寸稳定性好、缩水率小和耐气候性好等特点，还兼有天然纤维柔软、丰满、悬垂性好、飘逸感强、透气性好、舒适性佳等优

学位

细旦锦纶酸性染料活性染料稀土分散染料染色

福建省休闲农业学科建设与发展研究

该报告介绍了休闲农业的内涵与特征,阐述了休闲农业的产生背景,归纳了休闲农业的理论基础,分析了国内外休闲农业研究与发展的现状,探讨了休闲农业学科发展趋势与面临的机遇、

期刊

休闲农业学科发展农业多功能性政策支持人才培养

东晋士族的君主观念

西晋末年,司马氏与南北士族联合,在南方建立了东晋政权,门阀士族掌控实际的君主权力。士族阶层也形成了复合型君主观念,在保持和打压司马氏象征性君主的同时,也纷纷凭实力角

期刊

东晋士族君主观念

基于PL3200芯片的电力线载波通信抗干扰性的研究与设计

利用电力线作为通信介质进行数据传输有着广阔的发展空间和应用前景，同时能为社会带来不可估量的经济价值。电力线载波通信作为一种数据传输方式，在电力系统的调度通信、远动、

学位

电力线通信扩频捕获/跟踪PL3200抗干扰

视频中文本信息提取技术研究

其他学术论文