视频摘要及一种空时域结合的方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:li_heping1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机和通信技术高速发展的今天,大容量的多媒体数据及大规模的多媒体数据库对数字视频技术的要求越来越强烈。作为快速浏览大容量视频数据的有效手段,数字视频摘要起着至关重要的作用。好的视频摘要一方面能够很好的介绍它所代表的视频内容,另一方面信息量高度集中的视频摘要能够帮助用户避免浏览整个视频,这在信息高速增长的今天是有着重要意义的。基于对这一问题的理解,本文在交互式视频摘要、基于机器学习的视频代表帧提取、空域-时域相结合的视频摘要等方面进行了较全面而深入的研究工作。本文的主要研究工作和创新点如下: 首先,本文设计并实现了基于人机交互的静态视频摘要系统。本文首先介绍了静态视频摘要系统的主要技术,对目前用得较多的关键帧抽取算法,关键帧聚类算法进行了分析。由于当前的图像理解技术水平难以对视频帧和整个视频的内容有较深的理解,为此本文提出了一个基于人机交互的静态视频摘要系统。该系统具有两种工作模式:1)具有自动的视频镜头分割,关键帧提取,关键帧聚类和静态视频概要生成,2)该系统还具有较强的用户交互功能,用户可以在系统自动的镜头分割和关键帧抽取后对关键帧聚类和静态视频摘要生成进行修改和约束。同时从系统设计的角度,本文分析了引入人机交互后对系统设计的要求,如系统响应时间等。在新的要求下对系统关键帧聚类模块的算法进行了针对性的优化。这样使得该系统在保持较好自动功能的同时具有优越的用户交互能力。这为用户方便而快捷的生成满意的静态视频摘要提供了强有力的工具。 第二,本文分析了现有视频摘要算法中对代表帧(关键帧)代表性研究不足的问题,提出了基于机器学习的视频帧代表性度量。在已有的视频摘要系统中,常用的一些基于规则的代表帧提取算法很难满足用户的要求。通过观察发现用户在子镜头(Sub-shot)层次上对关键帧的选择具有较强的一致性。因此,本文对用户在子镜头中的代表帧选择用机器学习的方法进行建模。通过产生型模型(GenerativeModel)将视频帧的特征与其对子镜头视频片段的代表性用高斯混合函数模型(GaussianMixtureModel,GMM)进行表达。客观和主观评测证明了该算法在对视频帧代表性的度量上明显优于已有的基于规则的代表帧提取算法。 第三,本文提出了一个全新的空域-时域结合的视频摘要框架,称为空域-时域视频蒙太奇(Space-TimeVideoMontage)。视频本身是一个由两维的空间和一维的时间组成的三维的流。在这个三维空间中,视频信息的分布是不均匀的。但是目前的视频摘要研究都只是针对视频信息在时间域上的不均匀性,却忽略了视频在空间域上的非均匀性。研究人员关注最多的是如何在时间轴上选择视频帧,并将它们排列起来展现给用户。他们理所当然地将视频帧作为一个不可分割的最小视频单元。本文针对这一弊端提出了将空域和时域结合起来,首先分析视频信息在三维空间中的分布,然后用显著层(SaliencyLayer)代表三维空间中相互独立的高显著体,通过顺序的First-fit排列优化和Graphcut融合算法将这些高显著体重新排列成更加紧致的结构而去除初始分布在它们之间的低显著度区域。这样的处理之后就得到了一个空域-时域上都得到压缩的视频摘要。通过在不同视频上进行的空域压缩、时域压缩、空域-时域压缩和多输入视频流压缩实验,证明了该系统能够很好的去除视频空间冗余。新的视频摘要结果能够达到大的压缩比从而在有限的空间和时间中提供给用户尽可能多的信息。
其他文献
等维码(Constant-Dimension Codes)是子空间编码的重要组成部分。子空间编码是一类特殊的纠错码,它的码书是有限域上射影几何的子空间的排列的集合。Koetter和Kschischang在
近些年来,随着半导体制造中尺寸的缩小,超大规模集成电路的操作频率越来越快。特别是无线电话、光纤网络、微型电脑或是高阶的单芯片设计等高速系统的操作频率,它们几乎都已经达
当前,SARS和H5N1禽流感等各种高致病性传染病仍严重威胁着人类,而有效地防止高致病性传染病爆发的理想措施是严密地监视病毒的发展,使其在没大规模爆发之前,就对其进行早期发
Petri网能很容易地表达狭义相对论的观点,在形式建模和系统分析时可以采用直观的图形化表示。Petri网的建模能力和数学化表达方法,使其能够很好的运用于柔性制造系统、交通控
前段时间读了陈葆琳医生的《最后的期?考:女外科医师的九堂生死课》,作为一名移植外科医生,她写到在她给病人做手术的时候,如果想到这是自己的同胞,是个活生生的人,很难在一个人身
随着多媒体技术的发展,数字多媒体信息的篡改变得非常容易。数字产品易篡改的特点降低了自身的可信度。因此,作为数字产品的内容真实性和完整性验证的重要手段,多媒体认证技术近
变长交换技术是指IP数据包不经过切割而直接通过交换结构进行交换。与定长交换相比,变长交换的实现相对要复杂,由于交换的信息单元颗粒大,控制时延变得复杂。但是与定长交换
本论文重点研究数字媒体信息隐藏技术的理论与方法.文中所研究的数字媒体主要指数字化的静态图像、非压缩域视频和压缩域视频.论文的主要研究内容与创新成果如下:1.回顾前人
数字视频监控系统,融合了计算机,多媒体,通信和网络等多项技术,在越来越多的领域发挥着重要的作用。数字视频监控系统的编码端,负责图象的采集和编码,是数字视频监控系统中的
射频识别(RFID)是一门多学科的领域,其内容包括电磁场、天线和数字通信等多个方面。国内RFID芯片设计处在起步阶段,而RFID芯片的应用将越来越广泛。本文通过对RFID的研究与芯片