基于时序信息融合的视频目标分割算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:zhao7788
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频目标分割旨在自动分离视频中的前景和背景区域,是一种能够对视频进行精确像素级分类的技术。根据测试阶段是否利用初始帧掩膜标注,该技术可分为无监督和半监督两大类别。视频目标分割在视频编码、智能监控和人机交互等领域有重要意义。近年来,随着深度学习的发展,视频目标分割也取得了重大的进展。但是,高精度的算法仍然非常匮乏,其原因在于所学模型难以有效应对复杂视频场景的变化,如严重遮挡、剧烈形变、快速运动、相似目标干扰等。而合理、充分利用视频中隐含的丰富时序信息,有助于解决这些问题。本文从无监督视频目标分割研究到半监督视频目标分割,对基于时序信息融合的视频目标分割算法进行了深入的研究,成果如下:(1)提出了基于特征对齐和上下文感知的无监督视频目标分割算法。针对视频帧间物体运动变化复杂和局部语义表征不足的问题,通过两个专门模块将多帧特征先对齐再提取上下文语义,以充分利用相邻帧间时序运动信息并建立语义相关性。首先,对齐模块将左、右两帧特征分别以中间帧为基准进行对齐,以减弱相邻帧间变化,并捕获短时时序信息。然后,上下文模块通过邻域匹配技术建模时空域上的特征相似性,能够增强时空上下文的语义表征并且减少背景杂波的干扰。最后,在三个常用的标准数据集DAVIS 2016、FBMS和You Tube-Objects上进行了大量评测,充分验证了本方法的优越性能。(2)提出了基于双重时序记忆的半监督视频目标分割算法。为进一步提高分割结果和方便地处理多目标视频,引入初始帧掩膜标注,通过半监督路线进一步研究视频目标分割。设计了两个专门模块将时序信息解耦为短时时序信息和长时时序信息两种,分别提取、保存和记忆这两种视频序列特征,以进一步解决视频目标分割中的时序建模问题。首先,短时记忆模块通过图卷积技术建模一定时间窗口内的帧间特征相似性,以保持短时目标特征的视觉一致性。然后,长时记忆模块通过一个简化的卷积门控循环单元建模目标外观在视频中的长期演化过程,以捕捉全局、稳定的特征,来克服遮挡和突变可能造成的分割错误。另外,所有提取的特征都被送入一个反馈多核融合模块,通过特征反馈机制允许网络前层融合后层有用信息,进一步增强模型的判别能力。最后,在三个常用的标准数据集DAVIS 2016、DAVIS 2017和You Tube-VOS上进行了大量评测,充分验证了本方法的优越性能。
其他文献
近年来,伴随着社会信息化程度的提高,作为计算机视觉代表性任务之一的视频行为识别,因其在智能监控、自动驾驶、媒体分析和机器人等领域具有广泛的应用前景,受到了越来越多研究者的关注。同时在深度学习等技术蓬勃发展的背景下,涌现出大量基于深度神经网络的视频行为识别研究。虽然前人已经完成了大量的研究工作,但是依然存在大量挑战。首先,由于人类行为在视频时序和场景变化上存在的联系,如何充分利用时序上下文信息,对视
CAN总线是现代汽车电子技术中最重要的串行通信总线,因CAN总线的可靠性、实时性、互操作性、灵活性、经济性等特点,被广泛应用于各种汽车电子部件的通信与控制系统中,CAN总线通信是基于优先级仲裁与调度的通信系统,因此,研究基于CAN总线的调度对提高CAN总线的利用率与系统通信性能具有重要的意义。论文主要研究基于FIFO和优先级序列的CAN总线系统,提出一种模型优化的思路,具体研究内容分为以下几个部分
基于优化的元学习是一种旨在从指定的数据/任务中学习一组敏感的模型初始化参数的机器学习算法。该算法的优点在于当遇到一组新数据/一个新任务时,训练好的模型能够仅仅通过若干步梯度优下降化便在新任务上的测试集上获得良好的泛化表现。然而,从泛化性能的角度来看,我们认为传统的基于优化的元学习算法包含两方面缺陷:(1)由于每一个训练任务中包含的训练样本数量过少,算法在学习过程中使用过参数化网络时容易产生过拟合现
情感分类是自然语言处理领域内的基本任务之一,情感分类又分为粗粒度和细粒度情感分类。随着时代的发展,粗粒度情感分类已逐渐无法满足人类的需求,所以细粒度情感分类逐渐成为了研究重点。细粒度情感分类又称为方面级情感分类,旨在判断句子中某个具体方面的情感极性。本文的核心研究内容就是使用基于深度学习的方法进行方面级情感分类。本文的主要创新与工作如下:(1)大多数基于传统的循环神经网络和注意力机制的方面级情感分
轨迹规划与轨迹优化一直是备受存眷的研究热门,轨迹规划是轨迹优化的前提。仅使工业机器人完成指定任务,已不能满足目前需求,需要尽可能缩短运行时间来提高工作效率和减少冲击以延长使用寿命。本文以六自由度工业机器人为研究对象,在关节空间中采用五次非均匀B样条进行插值,对已规划好的轨迹,以改进的自适应遗传模拟退火算法为优化手段,将时间-冲击作为优化目标,通过改变权重获得时间、冲击以及综合最优轨迹。本文主要研究
随着城市化进程的不断加快,城市路网内部结构也更加复杂,路网中发生的紧急事件很大程度地危及到人们的生命财产安全。紧急事件发生时,城市应急中心会派出特殊授权车辆到达事故发生地实施救援工作,车辆到达时间越短,突发事件造成的损失就会越小。虽然特殊授权车辆具有道路优先通行权,但是实际行驶过程中也会受到车辆拥堵的影响,难以实现优先通行造成极大的延误。因此,在减少对普通车辆产生影响的前提下,本文围绕如何使特殊授
随着成像技术的普及与发展,数字图像逐渐成为了一种重要的信息传递媒介。但是,在实际的应用场景中,由于成像条件及外界干扰等因素的影响,存在着分辨率低、数据缺失等质量退化问题,图像恢复旨在研究如何从退化图像恢复出来理想图像,从而达到改善图像质量的目的。深度卷积神经网络通过卷积运算的层级化处理能够有效获取图像的层级特征表示,为图像恢复带来了新的建模方法,带来了图像恢复算法性能的有效提升,使其研究进展有了实
随着城市化进程的不断推进,我国公共建筑能耗随着面积的增加而大幅上涨。在这种背景下,目前市面上常见的公共建筑用电监控系统,大多采用智能电表配合总线的方式进行现场数据采集,存在布线工程量大、维护不便等问题。同时,一些现有建筑用电监控系统对异常用电的行为不能进行有效的管控,无法及时排除安全隐患,并且容易造成电能的浪费,制定相关政策以及进一步推进公共建筑节能工作较为困难。本文在研究现有建筑用电监控系统的基
近年来,海洋科学研究越来越多地依赖自主水下航行器和遥控水下航行器拍摄的水下图像。然而,由于复杂的水下成像环境,自然光在水下会发生吸收及散射效应,导致水下图像出现严重的可视性问题,具体表现为色偏效应、对比度不足、清晰度低。严重的失真不仅影响水下图像的质量,而且限制了水下视觉任务的进展。目前,水下图像处理方法主要包括传统方法和基于深度学习的方法,其中,传统方法由于水下复杂的物理和光学因素,在不同的水下
随着航天、航空以及核能电站等领域的设备集成度不断提高,其内部工作空间越来越狭小,环境越来越复杂,内部作业要求越来越高。而蛇形机器人因其较强的灵活性与柔韧性,能够较好地完成在狭小空间下的检修等任务。考虑到绳驱方式可以减少机器人体积与重量,本文提出了一种面向狭小空间作业的绳驱式蛇形机器人设计方案,并研究了其控制策略。本文主要工作如下:(1)本文提出了一种绳驱式蛇形机器人设计方案。对蛇形机器人的关节、连