基于提名优化和锚匹配的时序动作定位方法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:sarah_zld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时序动作定位是视频理解中一项极具挑战性的任务,其不仅要在未剪辑的长视频中定位动作的开始与结束时间,还要识别动作的种类。该任务可用于智能视频监控、智能视频推荐、新零售和人机交互等领域,具有十分重要的研究意义。当前的时序动作定位方法几乎都遵循两阶段范式,即先进行时序动作提名生成再进行动作识别。动作识别方法已相对成熟,因此好的时序动作提名生成方法成为了提升时序动作定位性能的关键。现有方法存在召回率低、计算耗时高等不足。针对该问题,本文开展了以下研究:1)设计了一种基于提名优化的时序动作定位模型,该模型在时间矩阵上生成开始分数、结束分数、动作分数和回归分数,基于这四个分数来评估所有候选时序动作提名的可靠度。为了保证候选动作提名的时间结构性,本文在训练中设计了一种新颖的度量损失函数。同时,该网络深度挖掘时序上下文信息,可以高效生成准确的动作边界,并生成可靠的置信度分数。在公开数据集上实验表明,该模型在动作提名生成上具有较高的召回率;同时在时序动作定位上的拓展实验表明,该模型具有较高的定位精度。2)提出了一种端到端的基于锚匹配的时序动作定位方法,该方法基于锚分支和无锚分支网络并行执行定位和分类任务。其中锚分支可用于捕捉时长中等的动作实例,无锚分支可用于捕捉极长或者极短的动作实例。同时为了缩小两个分支之间的差距,采用一种新颖的对齐损失用于两个分支进行对抗学习。在公开数据集上的实验表明,该方法性能超越了大多数两阶段时序动作定位方法。
其他文献
近年来,图像自动标注成了当下机器学习最热门的研究方向之一。图像自动标注技术能够将互联网上海量的图像信息转换为文本信息,方便进行图像检索、图像分类等应用。现在主流的图像自动标注模型大部分都采用深度学习网络构建而成,这些模型基于编码器—解码器框架,在编码器阶段利用卷积神经网络提出图像特征,在解码器阶段利用循环神经网络对图像的特征进行解码并且生成对图像的描述语句。本文将分别从编码器和解码器两个部分对其进
学位
随着技术的进步和社会的发展,高质量的图像为人们的生产生活提供着更多的便利。但图像在采集、传输和显示等过程中易产生失真现象,影响图像质量,因此对图像质量评价算法的研究具有重要意义。目前评价算法按依赖参考信息的程度可以分为全参考,部分参考和无参考图像质量评价,其中无参考图像质量评价算法由于完全不依赖参考信息,在实际场景中应用最为广泛。图像对比度失真是数字图像中一种常见的失真类型,然而目前研究人员针对图
学位
基于数据驱动的频域载荷识别技术在现代工程设计,可靠性试验,振动控制等方面具有广泛的应用范围。但在载荷识别过程中往往存在着不适定问题导致识别精度下降,而神经网络可以很好地缓解不适定问题,但是基于神经网络的载荷识别方法存在模型训练时间长,效率低,精度不高的问题。根据传递函数在频域的连续性,本文提出利用迁移学习,提高目标域的神经网络载荷识别模型的训练效率和识别精度,主要研究内容包括:(1)针对基于神经网
学位
红外图像可以在光线条件不好的情况下更加清晰的捕捉人脸信息,因此在实际应用场景中,红外图像的人脸识别也逐渐成为学界研究的热点之一。大量针对红外图像的识别算法被提出,并且达到了优异的性能。然而在实际应用场景中,人们发现经常会出现跨域识别的情况,即数据库中存储的是红外图像,而在特定条件下采集的人脸图像却是可见光图像,或者库中的数据为可见光图像,但采集的图像是红外图像,这种情景在安防领域经常出现。在此背景
学位
随着云计算和物联网等技术的发展,服务化成为软件的主要形态。越来越多的软件服务被开发和部署在互联网上,同时还有大量的虚拟化服务连接现实世界中各种物理服务资源,这些海量的服务通过特定的方式链接在一起形成服务互联网。在服务互联网环境下针对复杂的用户需求,为了实现服务体系的正常运营,服务组合优化技术成为解决这个问题的方法。目前传统的服务组合方法大多针对单一用户需求,在面对大量的同时出现的个性化需求时都是从
学位
汽车作为21世纪最重要的出行方式,极大地便利了人们的生活,其自动驾驶功能也越来越受到人们的关注。障碍物检测和测距是汽车感知周围信息的重要技术,能够为决策者提供重要依据。传统方法采用分类器检测车辆,激光雷达测距,具有鲁棒性差和价格昂贵的缺点。近年来,随着硬件计算能力的极大增强,基于深度学习的行车视觉测距技术已经逐渐成为研究热点。同时,5G的快速建设促进了边缘计算的发展,可以解决传统云计算传输时延大、
学位
目标跟踪是计算机视觉中一项基础但具有挑战性的任务。给予视频序列初始帧中的目标状态,跟踪器需要预测随后每一帧中的目标状态。目标跟踪以其重要的理论价值和广泛的应用价值,吸引了国内外众多研究员和研究机构的关注。虽然目标跟踪已经被深入研究了很多年,也有许多高性能的目标跟踪算法被提出,但在真实世界的场景实现快速、准确的跟踪依然具有挑战性。目标跟踪的挑战主要来自环境的复杂性和目标自身的因素(如背景混杂、非刚性
学位
由于电气原因导致的火灾给人民群众和国民社会造成了生命威胁和巨大的财产损失。故障发生隐蔽、难以及早发现、导致的损失特别巨大是引发火灾的电气故障的一大特点。借助新一代信息技术,在用电终端采集用电数据,并对用电数据进行分析,进而及时预测或识别电气故障给,及时向用户预警或自动切断电源,可以有效降低电气故障引发事故的风险,减小事故导致的损失。本论文主要介绍用电安全监控系统给的开发实现以及故障电弧识别和用电故
学位
信息时代下数据量激增,越来越多应用领域要处理大规模数据集。大量的数据从存储设备中传送到主机进行处理,不仅增加了主机中央处理器的负担,还产生了很大的传输时延。近数据处理提出将一部分基于主机的数据处理下移至存储设备中,以提高应用的整体执行效率。数据库作为近数据处理研究最优的载体之一,近年来得到广泛关注,目前已经实现用近数据处理模型来优化数据库系统。但是,已有的研究结果均为串行化近数据处理模型,主机和存
学位
随着计算机的逐渐普及和互联网技术的日益成熟,各个行业每天都会产生海量的数据,而这些数据往往具有规模大、维度高的特性,所以如何从中快速有效的提取有价值的信息给科学界带来了新的研究课题。在处理这些数据过程中一个重要的技术便是信息检索,而从数据库中查询相关信息最根本就是近邻搜索问题。最近邻查询是指在给定集合内寻找与查询点相距最近的点,它是当代信息检索的一种重要手段。基于k-d树的近邻搜索算法是近邻搜索算
学位