论文部分内容阅读
随着计算机技术和大数据技术的发展,视频正逐步取代文本和音频,成为主要的信息载体。数据量不断增大的同时,其内在包含的数据规律和价值越来越被人们所看重。不同于文本信息,视频信息所表达的数据意义难以被计算机直接获得,数据理解过程高度依赖人工干预。视频的运动目标分割技术,正是服务于机器视觉、模式识别等高语义层次的视频处理过程,为后者提供画面的感兴趣区域等视频语义对象。两个过程共同发挥作用,实现视频内容的机器理解。本文选取基于背景建模的视频运动目标分割方法作为主要研究对象,详细介绍了码本背景模型,并在两个方面上对其进行扩展和完善。第一,为了适应全局光照变化和复杂的视频内容,使用亮度、色度和纹理三种特征构建多特征模型,引入特征置信度对其进行调和平均加权,得到码字的综合相似度。同时,增加了对全局光照条件的跟踪,以及时触发码本的重新学习。第二,引入模糊逻辑的数学概念,为背景分割过程建立模糊规则。算法构建了码字的综合相似度到其是否属于背景模型的模糊映射,给出了基于先前分割统计规律的背景隶属度函数的计算方法。这样的设计为每个视频序列提供了与其统计特性相适应的分割方法,进而提高了算法的适应性。算法在Wallflower评测集上进行了仿真实验,提供了客观的TPR和FPR指标,并绘制了实验结果与人工标注结构的对比图。实验结果显示,与传统码本模型和另一个鲁棒的背景模型相比,本文提出的多特征模糊模型能更好地处理全局光照变化和背景的移动,提供了更高的分割准确率。