压缩视频的分段与特征分析技术研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:xingli1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文以MPEG压缩视频为研究对象,进行了视频分段和特征分析的研究工作,并根据分析结果提取关键帧,进行镜头聚集,从而实现直接对压缩视频的快速访问.我们首先通过分析MPEG压缩视频数据所具有的特征,提出了表示压缩视频的数据模型.在视频数据库管理系统中,数据模型是实现其它功能的基础.我们引入了八个定义,采用两个中间层次——镜头(shot)和场景(scene)表示视频数据.镜头被定义为由某个输入设备记录下的连续的、未被中断的最大帧序列.场景被定义为由一个或多个具有语义相关性的连续镜头组成的镜头集合.我们所定义的数据模型较好地反映了视频数据的时空特性,并支持视频解释和数据独立性.在进行视频分段时,通过检测镜头变换,将视频序列划分为以镜头为单位的视频片段,并利用定义的数据模型表示镜头.运动特征反映了镜头的动态内容,这是静态图像所不能提供的.当有运动时,需把镜头分成子镜头,并将子镜头定义成镜头中具有某些共同属性的连续帧的集合.为了突出文字,文字与背景有一个高的对比度,这样就使得文字区的色彩和纹理与背景区是不同的.宏块的AC系数反映了宏块的纹理特征.宏块的DC系数反映了宏块的色彩均值.我们还提出了利用I帧的DC系数,获取镜头色彩特征的方法.我们获取的色彩特征有两个,一个是主色值,另一个是指定色块.主色值在某种程度上能够反映镜头活动的背景场所类型.在压缩视频上直接识别出文字区和肤色区后,只需对相关的帧或区域进行解压,这样只花费最小的解压代价,就可以识别文字和人脸.由于人脸和文字信息更接近于镜头的语义内容,因此其特征对按内容访问更有意义.由于一段镜头所包含的内容很多,仅用文字描述内容是很不够的,需要选择一个关键帧来代表镜头的空间内容,于是关键帧便成为对镜头空间内容进行有效表示的手段,也是视频索引的一项主要内容.最后,在对视频数据库进行基于内容检索时,为了能够对用户的检索请求实时响应,我们根据视频检索现状,利用前面的数据模型、视频分段、特征分析和关键帧提取等相关算法,建立了一个基于压缩视频的快速浏览原型系统.
其他文献
该文分析了传统电子银行业务系统身份认证中存在的安全隐患和可能带来的重大安全问题.为了解决这一问题,该文提出了一个安全模型,根据安全模型我们设计出了一个基于令牌的安
本文在分析目前该领域研究状况的前提下,结合数据安全和密码学的相关技术,提出了一系列算法和策略,尤其是针对FGS可扩展压缩视频流的具体特点。设计的目标是满足目前的网络多媒
该文在国内外相关研究的基础上,重点探讨了多代理协同体系结构、协同控制策略、协同设计的方法,并基于AutoCAD实现了一个协同设计系统.该论文的主要研究工作有以下几个部分:
该论文首先分析了NO.7信令如何与IP网进行互通,其次对信令网关作了详细的论述.然后,论文对设计的信令网关仿真器作了详尽的分析与解释,包括SIGTRAN协议栈、硬件配置等.SCTP是
该文是基于应用在战役后勤指挥作业车组中的综合业务信息系统的具体要求未讨论的.系统要求满足训战一致,平战结合的要求,需要整合大量的数据,因此需要解决数据一体化的问题.
随着LOD等项目的发展、各大商业公司的推动,语义网上的RDF数据爆发式增长,人们迫切需要可以提供高效存储、查询RDF数据服务的SPARQL执行引擎。于此同时,传统关系数据库经过近
软件能力成熟度模型(CMM)是美国卡内基梅隆大学软件工程研究所开发的一种用于评价软件承包商能力并帮助其改善质量的方法,它提供了一个评估软件开发过程的管理以及工程能力的
随着智能Agent和多Agent 系统向前迅猛的发展,为建立现有系统和提供一个并驾齐驱的最新发展的基础,维持的一个一致的世界视点是越来越重要了.使用形式化概念可以对给定的复杂
虚拟现实是一种高度逼真地模拟人在自然环境中视、听、动等行为的人机界面。图形生成是虚拟现实的一项关键技术。本文主要研究虚拟现实中建模技术的应用,讨论了传统建模技术和
本论文研究并实现了一个PCI/ISA桥。PCI/ISA桥是PC机系统中南桥芯片的一个重要组成部分,其功能是进行PCI总线和ISA总线协议之间的转换,实现PCI设备和ISA设备的跨总线相互通信。