论文部分内容阅读
在计算机和通信技术高速发展的今天,大容量的多媒体数据及大规模的多媒体数据库对数字视频技术的要求越来越强烈。作为快速浏览大容量视频数据的有效手段,数字视频摘要起着至关重要的作用。好的视频摘要一方面能够很好的介绍它所代表的视频内容,另一方面信息量高度集中的视频摘要能够帮助用户避免浏览整个视频,这在信息高速增长的今天是有着重要意义的。基于对这一问题的理解,本文在交互式视频摘要、基于机器学习的视频代表帧提取、空域-时域相结合的视频摘要等方面进行了较全面而深入的研究工作。本文的主要研究工作和创新点如下:
首先,本文设计并实现了基于人机交互的静态视频摘要系统。本文首先介绍了静态视频摘要系统的主要技术,对目前用得较多的关键帧抽取算法,关键帧聚类算法进行了分析。由于当前的图像理解技术水平难以对视频帧和整个视频的内容有较深的理解,为此本文提出了一个基于人机交互的静态视频摘要系统。该系统具有两种工作模式:1)具有自动的视频镜头分割,关键帧提取,关键帧聚类和静态视频概要生成,2)该系统还具有较强的用户交互功能,用户可以在系统自动的镜头分割和关键帧抽取后对关键帧聚类和静态视频摘要生成进行修改和约束。同时从系统设计的角度,本文分析了引入人机交互后对系统设计的要求,如系统响应时间等。在新的要求下对系统关键帧聚类模块的算法进行了针对性的优化。这样使得该系统在保持较好自动功能的同时具有优越的用户交互能力。这为用户方便而快捷的生成满意的静态视频摘要提供了强有力的工具。
第二,本文分析了现有视频摘要算法中对代表帧(关键帧)代表性研究不足的问题,提出了基于机器学习的视频帧代表性度量。在已有的视频摘要系统中,常用的一些基于规则的代表帧提取算法很难满足用户的要求。通过观察发现用户在子镜头(Sub-shot)层次上对关键帧的选择具有较强的一致性。因此,本文对用户在子镜头中的代表帧选择用机器学习的方法进行建模。通过产生型模型(GenerativeModel)将视频帧的特征与其对子镜头视频片段的代表性用高斯混合函数模型(GaussianMixtureModel,GMM)进行表达。客观和主观评测证明了该算法在对视频帧代表性的度量上明显优于已有的基于规则的代表帧提取算法。
第三,本文提出了一个全新的空域-时域结合的视频摘要框架,称为空域-时域视频蒙太奇(Space-TimeVideoMontage)。视频本身是一个由两维的空间和一维的时间组成的三维的流。在这个三维空间中,视频信息的分布是不均匀的。但是目前的视频摘要研究都只是针对视频信息在时间域上的不均匀性,却忽略了视频在空间域上的非均匀性。研究人员关注最多的是如何在时间轴上选择视频帧,并将它们排列起来展现给用户。他们理所当然地将视频帧作为一个不可分割的最小视频单元。本文针对这一弊端提出了将空域和时域结合起来,首先分析视频信息在三维空间中的分布,然后用显著层(SaliencyLayer)代表三维空间中相互独立的高显著体,通过顺序的First-fit排列优化和Graphcut融合算法将这些高显著体重新排列成更加紧致的结构而去除初始分布在它们之间的低显著度区域。这样的处理之后就得到了一个空域-时域上都得到压缩的视频摘要。通过在不同视频上进行的空域压缩、时域压缩、空域-时域压缩和多输入视频流压缩实验,证明了该系统能够很好的去除视频空间冗余。新的视频摘要结果能够达到大的压缩比从而在有限的空间和时间中提供给用户尽可能多的信息。