论文部分内容阅读
视频目标分割是计算机视觉领域的一个研究热点,涉及图像处理、模式识别、概率论与数理统计等多个学科,具有较强的学术研究与应用价值。它是计算机视觉领域很多高级应用的基础,这些应用包括:智能监控、目标检测与跟踪、视频编辑、虚拟现实、场景分析等。视频目标分割的研究目标是能够准确、高效地从视频序列中分割出感兴趣的运动目标。本文主要研究了静态摄像下视频序列中运动目标无监督分割算法,以及动态摄像下视频序列中运动目标半监督分割算法。本文的主要研究成果和创新点总结如下: 1)本文提出了适用于马尔科夫随机场框架的超像素级特征转化方法。将像素级的外观和运动特征转化为超像素级特征,同时将像素级邻域关系也扩展至超像素。这种局域特征的表达方式在提高了计算效率的同时又能较好地保持物体的轮廓,这些特征归一化后可以方便地嵌入马尔科夫随机场框架。 2)本文提出了基于超像素的类目标/背景池的在线学习特征的方法。运动目标的外观和运动特征在相邻帧间变化非常缓慢,具有在时间上(帧间)和空间上(邻域关系)的连续性。本文利用这种时空连续性,将前一帧的分割结果拆分成前景/背景超像素,用来建立基于超像素的类目标池和类背景池,并将其作为当前帧分割的先验知识,并给出了一种计算当前帧中目标的超像素级前景概率的方法。这两个持续更新的池提供了一种稳定而连续的在线学习特征的方法。 3)本文提出了预测超像素和校验超像素的概念以及一种超像素级置信度的自动生成方法。为了提高动态摄像下对非刚体目标、快速运动目标、大形变目标等的分割效果,降低特征二义性的影响,本文着重于同时从全局和局部的视角出发来挖掘基于超像素的运动和外观特征。为了挖掘全局和局部的运动线索,本文利用光流、类目标/背景池等信息提出了预测超像素和校验超像素的概念。此外,很多文献里往往对一个视频甚至一个视频集给出固定的经验性的特征置信度,但实际上特征的置信度随视频场景的变化而变化,且同一帧不同位置的特征置信度一般也是不同的,这种不科学的方法损害了特征的辨别能力。因此本文提出了超像素级的客观有效的特征置信度自动生成方法,根据不同帧不同位置的局部特征自动产生合理的置信度,无需人工参与,提高了特征对目标的辨别能力。 4)本文提出了一种基于改进的D-S(Dempster-Shafer)证据理论的精细到超像素级的特征融合方法。很多文献里在特征融合时使用简单的经验性的全局加权法或者置信度加权法,事实证明这种简单粗暴的加权法融合并不具备科学性和通用性,并且无法保证融合后的结果更优,反而会削弱特征对前景和背景的辨别能力。因此,本文提出了一种基于改进的D-S证据理论特征融合方法,将全局和局部的外观和运动特征及其置信度信息统一到一个框架内进行自动融合,完全不需要经验调参,极大增加了算法的科学性和实用性。实验证明这种融合方法相较于平均加权和置信度加权融合法,融合效果更好,普适性、鲁棒性更强。