论文部分内容阅读
随着微电子制造工艺、数字编码以及网络通信技术的快速发展,视频已经越来越广泛地融入并且改变着我们的生活。视频以其直观、丰富的信息表达形式为人们所喜爱,与此同时,如何高效、智能地分析视频数据,成为计算机视觉领域极富挑战性的课题之一。视频内容分析涵盖目标检测、目标识别、行为判断、场景理解等内容,其中运动目标检测作为基础和前提,多年来得到研究者的广泛关注并且积累了大量的研究成果。然而,实践表明现实场景中的运动目标检测技术远未成熟,尤其是相对于人类视觉系统,即使是目前最优异的算法都黯然失色。因此让计算机以贴近人类感知、加工的方式理解视频内容,依然有很长的路要走。本文围绕生物视觉系统的注意选择机制,以可见光图像序列为研究对象,研究了基于显著性的运动目标检测算法。本文的主要研究内容和贡献概述如下:(1)提出了一种基于时域信息的运动目标检测与分割算法。首先利用输入视频序列的时域差异计算场景的显著图,为了得到更加准确且鲁棒的检测结果,算法极大地拓展了时域窗口的尺寸,在突出运动目标的同时,很好地抑制了背景噪声的干扰。紧接着基于运动显著图,采用信息熵以及模糊理论自适应分割场景中的运动目标区域。算法既不依赖于关于场景的先验知识,计算过程也不需要人为干预,在被广泛采用的多个公开测试集上,实验结果验证了算法的有效性和先进性。(2)提出了一种基于灰度差异的运动显著性检测方法。算法首先计算了连续图像序列间两种不同的灰度差异,即对称的帧间差异与背景样本差异。然后,在综合考虑鲁棒性和复杂度之后,选择一种非线性模型融合以上两种特征值从而获得最终的运动显著图。实验结果表明,算法不仅消除了帧差法检测结果中的拖尾和运动模糊现象,同时有效解决了背景差法检测结果中的鬼影问题。进一步,基于生成的运动显著图,本文做了简单的自适应阈值分割,分割结果准确提取出了场景中的运动目标。(3)建立了基于深层卷积神经网络的低照度环境中运动显著性检测模型。首先使用不同环境条件下的有标签数据训练了一个包含376700个参数,深度为9,最大宽度为128的神经网络模型。考虑到图像序列之间的差异直接反映了场景中的运动信息,因此模型除原始图像序列之外引入相应的帧差图作为训练数据。训练及检测过程中,网络输出为与输入同尺寸的运动显著图,即特征提取过程中随着层数的增加并不改变图像尺寸。在现有最大的人造数据库上,训练完成的网络模型针对低照度图像序列的检测结果验证了模型的有效性。(4)提出了一种基于分形特征及活动轮廓模型的运动目标检测与分割算法。针对运动中的人造目标,首先利用其与自然背景分形特征的差异计算相应的显著图。紧接着,使用最大化信息熵方法自适应计算阈值二值化显著图,并且将包含前景区域的最小外接矩形作为初始轮廓曲线。最后,基于活动轮廓模型演化曲线,从而最终将场景中的运动目标分割出来。算法可以有效解决活动轮廓模型对初始曲线位置敏感的问题。针对不同图像序列的检测结果表明,算法能够准确检测并分割出场景中运动的人造目标区域,并且对背景噪声鲁棒。以上成果作为运动目标跟踪、分类、识别、行为分析等视频处理的基础技术,可以广泛应用于智能视频监控、无人驾驶、战场环境监测、空间目标检测等领域。