论文部分内容阅读
最近几年,随着智能手机的普及以及4G、5G等网络通信技术的不断成熟商用,各种短视频、视频直播平台迅速兴起。与此同时,对海量的视频数据的识别、理解与检索也逐渐成为迫切需求。与文字图像不同,视频所携带信息密度更高,因此对视频的处理难度更高。其中,视频目标分割作为视频处理领域基础性工作,采用像素级精度分割视频帧序列中特定目标,大规模应用于自动驾驶、视频检索、视频监控、视频语义理解等领域。因此,对视频目标分割的研究与实现非常重要。然而,在实际应用场景中,现有的半监督视频目标分割方法,存在以下两个问题:第一,神经网络对训练样本要求很高,当训练样本比较少时,训练模型并不能充分提取出图像的底层特征;第二,场景容易受到目标遮挡、图像模糊、目标剧烈变化、目标背景杂乱等影响,网络模型无法分割出完整的目标轮廓。本文以上述问题为出发点,提出了随机网格遮挡的数据扩充方法,以及样本生成式的视频目标分割方法。本论文的具体研究工作和创新点如下:(1)针对传统数据增强方法无法解决目标遮挡的问题,本文提出基于随机网格遮挡的样本生成方法。本方法首先在神经网络模型的训练期间采用随机网格遮挡的方法,隐藏图像中的部分内容,以获得充足的训练样本。然后,使网络模型从剩下的图像内容中学习相关的特征。提升了视频目标分割网络在前景目标被遮挡情况下的鲁棒性,同时能够缓解神经网络训练中过拟合问题和假标签问题。(2)针对视频中运动目标的背景干扰和背景杂乱的问题,本论文提出样本生成式的视频目标分割方法,以提高在此场景下视频目标分割性能。本方法首先利用生成对抗网络的原理构建视频目标分割模型。其次,采用三元组损失函数联合训练,使得分割模型在半监督模型上获得更好的训练。最后,通过生成器网络和判别器网络不断交替迭代训练,获得更好的半监督的视频目标分割模型。(3)针对提出的两个算法在工程上的应用,本论文设计并实现了视频目标分割综合应用平台。用户可以通过本应用平台对本论文提出的视频目标分割算法进行定制化的训练和测试。实验表明,本文的研究具有以下几个优点:首先,本方法是对目前流行的样本生成方法的有效补充。其次,提高了基于CNN的视频目标分割模型在遇到各种干扰情况下的鲁棒性。最后,具有普遍适用性,可扩展到图像识别分类、目标检测、行人重识别等其他的网络训练。该论文有图幅42个,表12个,参考文献81篇。