视频中的文字信息提取

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jhl1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频中所含的文字为描述和指示视频内容提供了十分丰富的信息。在一些情况下这些信息在多媒体载体中是独一无二的。视频文字信息抽取能够应用于基于高层语义的视频检索和浏览系统,并且它们是建立索引的有效手段。   本文主要围绕针对视频文字信息抽取的几个方面对我们的工作进行了介绍,提出了一个包括文字区域检测,区域分割,视频文字跟踪和增强以及识别等模块的完整的视频文字信息提取系统和算法。   在视频文字检测方面,我们提出了一种基于改进的Canny算子并利用线条特征的检测算法,该算法对Canny算子进行了有效的改进,使其对文字边缘的敏感度大大提高,并且通过有效的利用文字笔画的线条特征来对文字区域进行判别,使得算法克服了传统的基于边缘检测算法的缺点,在保持较高查全率的同时大大降低了虚警。在文字分割模块中,我们提出了一种融合多种处理方法的文字区域二值化算法,通过综合局部二值化,边缘像素填充,文字极性判断等方法有效的过滤文字区域中的背景,使文字区域二值化效果得到较大提高。   视频文字一般会持续出现一段时间,因此我们利用视频文字的时间冗余性来提高文字检测精度和增强文字质量。在这一阶段我们提出了一种基于二分搜索法的快速文字跟踪算法,以文字区域的边缘位图为特征,实现了对静止文字对象快速有效的跟踪。在多帧融合方面,我们除了采用传统的灰度融合图像进行文字区域增强,还利用边缘位图对文字区域进行进一步的背景过滤,从一个更新的角度利用了文字的时间冗余特性进行背景过滤和文字增强。   本文针对提出的算法进行了详细而全面的实验,实验表明本文算法具有较高的检测和识别性能,以及较强的实用性。文中所提出的算法已经成功的应用于本实验室开发的多媒体信息检索系统中,成为系统中基于高层语义查询模块提供了的重要信息。
其他文献
频繁模式的挖掘一直是数据挖掘中的重要研究领域之一。随着计算机软硬件的发展,传统中的确定性数据可能存在缺失、出现噪声值,从而产生大量不确定性数据,如传感器、卫星图像
网络教育是随着现代信息技术发展而产生的一种新型的教育形式,鉴于目前的网络教学系统多数缺乏智能性、自适应性、自主性和各环节的互通性以及交互性,可以采用Agent技术对上
随着计算机互联网科技的不断进步,网络化教学已逐渐被教育工作者所认同,成为现今教育的一个重要发展方向。网络化教学评量也逐渐扮演着一个重要的角色。教学评量一方面为教师
计算技术和无线通讯技术的发展与结合使得一种全新的计算模式—移动计算模式成为现实。在移动计算环境下,用户使用便携式计算机通过无线通讯接口实现对信息网络的访问,而不受
XML(eXtensible Markup Language)是继HTML之后发展起来的一个重要的Internet技术。已经成为Internet上数据表示和交换的新标准。随着Web应用的迅猛发展,XML数据量与日俱增。
人工神经网络(ArtificialNeuralNetworks,ANN)是一个高复杂度的非线性系统,虽然从形式上模拟了人脑的学习结构,但由于所依赖的生物学理论基础尚不完善,因此人工神经网络不仅功能
随着并发程序日益广泛的使用,并发程序的调试也变得越发的重要。传统的循环调试技术主要是设置断点,多次执行源程序,逐步定位错误位置。因为顺序程序的执行结果主要取决于程
视频压缩是多媒体通信中的核心技术,它不但关系到通信带宽,也关系到通信过程中的图像质量。随着多媒体技术在Internet网络上的广泛应用,视频压缩技术越加显得重要。对视频压缩技
本文详细首先讨论了NAT-PT技术中的地址转换技术和协议转换技术。为了节省IPv4地址资源的采用了NAPT技术,协议转换根据SIIT中定义的IPv4/IPv6报头翻译和ICMP4/ICMP6的转换
随着人们对网络带宽的要求和以太网技术的发展,以太网技术越来越多的被应用于宽带驻地网的建设。这对以介质共享为基础的以太网技术,在可运营和可管理方面提出了新的要求,对