论文部分内容阅读
随着数字摄录设备的发展和影像技术的进步,在越来越多的场合下,人们开始使用视频摄像设备来记录相关的经历和场景,如家用视频、影视媒体、视频监控等,因此各种类型的视频数据量呈现出快速增长的趋势。同时,伴随着网络搜索技术的发展,越来越多的研究人员也在积极探索更加鲁棒和高效的面向图像和视频的搜索引擎,来提高搜索的精度和效率。但是,由于视频数据量大、空间维数高,而且内容多样,因此视频分析和内容表征已经成为了一个重要的研究课题。基于估计学习模型的视频分析和内容表征技术,是针对不同类型的视频序列,利用图像处理知识和估计学习方法,实施物体和区域分割、识别,并在此基础上,分析图像中的内容和事件,最终将其以一种紧凑就、直观和艺术化的形式将视频内容呈现出来。该技术涉及到计算机视觉、信号处理和模式识别等多个领域和学科,是一个新的交叉应用学科。随着计算机技术的发展,视频分析和内容表征在视频监控、可视化媒体、网络搜索等领域的应用将更加广泛。信号处理,尤其是图像处理以及估计学习方法的研究还有助于推动视频领域的机器学习、语义建模和事件检测等相关课题的发展。由此可见,基于估计学习模型的视频分析和内容表征方法研究具有重要的理论和应用价值。
视频分析和内容表征可以从其关键问题和处理流程上分为三个层次,即物体识别、内容理解和内容表征,目标是实现一个自动识别、理解和表征的视频处理系统。对于结构化的视频分析,物体识别是一个基本步骤。内容理解主要解决对视频内容中的物体识别得到的语义概念进行建模,处于较高的层次。而内容表征则是基于物体识别和内容理解的结果,它处于最高的层次。这三个层次组成了视频分析和内容表征的一个相对完整的框架。
本论文主要包含如下内容:
1.系统阐述了视频分析和内容表征的基础知识,讨论了视频图像处理、估计学习理论和视频结构分析的基本原理和方法,并且对国内外相关研究工作进行了系统的概述。
2.针对第一个层次,物体识别,研究了基于局域灰度分布的背景建模方法,从图像处理的角度入手,即基于局域灰度分布建立背景的离散概率模型,根据机器学习理论和参数估计方法,可以对各种场景下的背景进行建模和更新,从而提取和识别出运动物体。
3.结合第一个层次和第二个层次,着重从视频物体分割理解的目的出发,介绍了基于无偏卡尔曼滤波器模型的运动分割方法,包括基本线性卡尔曼滤波器模型、扩展卡尔曼滤波器模型以及无偏卡尔曼滤波器模型,设计参数估计算法,还介绍了在运动分割中如何对阴影区域建模和检测,为在视频序列中快速准确的分割运动物体和理解视频内容奠定了基础。