论文部分内容阅读
近些年来,随着多媒体技术和网络技术的快速发展,出现大量的以视频为主的多媒体数据。如何有效的处理这些海量的视频数据是目前一个研究的热点问题。其中“语义鸿沟”是人与计算机系统交互中的一个重要障碍,这是由于人对视觉媒体的评判标准和计算机系统对视觉媒体的评判标准存在着很大差异。由于计算机系统通常利用颜色、纹理和形状等底层特征进行视频结构分析,然而人们更倾向于利用内容以及语义级别的检索方式进行视频检索。如何减少计算机系统和人类之间的“语义鸿沟”是目前基于内容的视频检索等领域的一个重要突破点。其中视频内容的提取与检索就是解决“语义鸿沟”的重要手段。虽然对于基于内容的视频检索有了很多研究,但这项技术还远远不能满足用户的普遍需求。本文对基于语义的视频内容提取与分析的几个关键技术进行了研究,研究主要集中于如何自动提取与分析视频内容,实现视频数据的半自动或自动分析和归类,以满足检索的需要。本文分析了传统三层内容分析架构的不足。在此基础上,提出了四层内容分析架构:基本视觉内容层、感知内容层、目标内容层以及场景内容层。通过增加的感知内容层可以更好的解决计算机系统与人类之间的“语义鸿沟”问题。本文的主要研究成果包括:(1)在视觉感知内容层面,重点研究了基于视觉注意模型的感知内容提取模型,并在此基础上提出了动态场景下的视觉显著图生成方法(Salient Map Generation on Dynamic Scene, SMGDS )以及基于时空模型的快速视觉显著图生成方法(Salient Map Generation using Temporal-Spatial Model, SMGTSM)。SMGDS算法通过运动轨迹等运动特征实现了动态场景下的视觉显著图的稳定生成。而SMGTSM则利用一种无监督聚类算法实现了视觉显著图的实时生成。通过SMGDS和SMGTSM有效地实现了视频感知内容的提取,为感知内容层提取奠定了基础。(2)在目标内容层面上,着重于监控视频的目标提取。分别提出了复杂背景下的自适应前景分割算法(Adaptive Foreground Segmentation in Dynamic Scene, AFSDS)和利用背景聚类的快速前景分割算法(Fast Foreground Segmentation using Background Clustering, FFSBC)。在分析了现有基于高斯混合模型前景分割算法的缺陷后,AFSDS和FFSBC算法分别在目标检测精度和速度两个方法对现有的高斯混合模型(MOG)算法进行了改进。实验证明AFSDS和FFSBC可以在复杂场景下有效地检测出运动前景,显著地提高了检测精度和速度。(3)在分析了具体场景特点的基础上,提出了针对故事片中出现的人物自动索引算法(Automatic People Indexing in Video, APIV)。APIV算法首先用人脸检测算法检测出视频出现的人物,再提取衣着颜色和声音两种特征构成特征向量,最后通过提出的新的无监督聚类算法实现了视频中出现的人物的自动聚类。APIV算法解决了传统方法中需要靠人工对视频中出现人物进行手工标注的问题,能够自动的对视频中出现的人物进行聚类。对于大量的视频进行实验,实验证明了APIV算法的有效性和实用性。APIV为现有场景内容分析方法提供了一种有效的补充。(4)视频摘要是视频内容的压缩和摘要。在分析了现有视频摘要生成方法的不足的基础上,提出一种基于视觉感知内容的视频摘要生成方法(Key-frame Extraction using Visual Attention Model in Video, KEVAMV)。KEVAMV算法利用了视觉注意模型,提取了视觉注意度(Visual Attention Index, VAI)作为特征,并根据VAI的变化自动生成优化的视频摘要。KEVAMV方法相对传统方法而言,可以根据人的视觉特点,提取用户较为感兴趣的关键帧。本文的研究是基于目前用户对视频内容分析的迫切应用需求和广泛的应用前景展开的。主要研究了视频内容提取与检索的关键技术,从而用户可以简单而有效地获取感兴趣的视频内容。