基于深度学习的视频时序动作定位研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:a5823869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及网络技术的发展,生活中的视频呈爆炸式增长,视频分析成为计算机视觉领域的热点问题。时序动作定位是视频分析的重要分支,给定一个包含多个动作实例和复杂背景的未修剪长视频,时序动作定位第一要识别它们的动作类别,第二要定位每个实例的起始时间和终止时间。本文针对这两个任务,分别提出了新颖的方法,具体工作如下:(1)在动作识别方面,目前有双流卷积神经网络和三维卷积神经网络两大主流模型。双流卷积神经网络存在速度缓慢且时空特征关联性体现不充分的问题;Convolutional 3D(C3D)网络作为典型的三维卷积神经网络,在输入数据上存在冗余且运动信息提取不充分,在结构上对时空特征融合不够充分。为此,本文首先改进C3D网络的输入,采用以较低成本保存相关信息的稀疏采样策略,且使用RGB图及光流图两种输入形式。实验表明,稀疏采样策略可提高识别效率,引入光流图作为输入可合理利用视频运动信息,提高动作识别准确率。在此基础上,本文提出一种基于稀疏采样的时空特征融合动作识别模型,将稀疏采样获得的RGB图和光流图送入时空双流卷积神经网络分别提取视频的时间特征和空间特征,通过融合时空卷积神经网络,提取能有效反映时空关联性的中层时空融合特征,最终将中层时空融合特征送入C3D网络识别出动作类别。在UCF101和HMDB51数据集上的实验表明,该框架能够有效提高动作识别的准确率。(2)在时序动作定位方面,现有的候选区域选择算法和动作识别网络对时空特征提取不够充分,起止边界定位算法的结果与真实边界往往存在着较大偏移。为此本文提出两种模型来提高时序动作定位任务的精度。第一,为解决C3D网络在时序动作定位任务中准确率还有待提高的问题,本文提出了一种基于时序分割网络的多阶段时序动作定位模型。首先,该模型运用多尺度分割生成视频段,后依次通过由准确率较高的时序分割网络构成的建议网络、分类网络和定位网络,最后通过非极大值抑制算法来完成时序动作定位。第二,针对候选区域选择算法和起止边界定位算法的准确率有待提高的问题,提出一种时空特征融合时序动作定位模型。首先,该模型采用基于稀疏采样的时空特征融合动作识别模型作为候选区域提取网络,充分利用视频分割段的时空特征来判断是否为候选区域。接着将候选区域输入到卷积-反-卷积网络中进行帧级粒度上的动作分类。最后训练动作状态检测网络,精修候选区域,从而得到更精准的动作起止时间。在THUMOS’14数据集上的实验表明,两种模型均比现有方法获得了更好的效果。
其他文献
锂离子电池因为其能量密度高、无记忆效应、对环境友好等优点,一直是二次电池的研究热点,电极材料直接影响着锂离子电池的性能,因此寻找一种价格低廉、循环寿命长、比容量高的电极材料对商业化应用具有十分重要的意义。在过渡金属氧化物中,锰氧化物因为具有高的比容量(其中MnO2理论比容量为1232 mAh g-1,Mn2O3的理论比容量为1018 mAh g-1,Mn3O4的理论比容量为937 mAh g-1,
卫生健康监督执法体系是公共卫生体系的重要组成部分,卫生健康监督执法机构依法对医疗卫生机构和健康产品相关单位履行监督管理职责。近年来,成都市卫生健康监督执法事业快速发展,体系建设不断完善,监管水平和执法能力持续提升,为“健康成都”建设提供了有力的监督保障。开展卫生健康监督执法体系调查研究,是为进一步完善成都市卫生健康监督执法体系建设提供依据,对依法履行卫生健康监管职责、切实护卫群众健康权益具有重要的
经济步入新常态以来,我国对促进产业结构优化升级,实现经济发展方式转变更加迫切,在促进产业结构调整的道路上,已经投入很多人力、物力、财力,那么究竟产业结构调整程度如何?哪些地区是以最高效的方式促进产业结构调整的?研究这些问题对加强我国区域间学习借鉴,加快我国产业优化升级进程有重要的现实意义,然而对这些问题的研究已有文献尚有不足,甚至存在空白。已有文献对产业结构调整测度、产业结构调整影响因素的研究较多
随着国家对金融市场的开放,各类银行不断涌入。截至2019年,笔者统计BJ地区金融机构多达17家。BJ邮政代理金融机构作为参与者,代理金融网点是其发展的第一线,近年来网点收入逐年下降,网点转型多年停滞不前,网点违规误导销售屡见报端,网点经营效率与效益愈发低下。面对上述现实与挑战,其各级管理部门也拿出了各自的绩效办法,但实际执行收效甚微。因此如何提高各网点经营效率与效益,加快网点转型,保证各网点的效益
随着汽车行业的飞速发展,人们对汽车各方面的性能要求也越来越高。悬架是汽车不可或缺的一部分,缓和冲击衰减振动,确保汽车的平顺性与操作稳定性。汽车通过传统的液压减振器衰减不平路面激励引起的车身振动,传统的液压减振器会将这部分振动能量转化为相关零部件的机械能与液压油的热能耗散掉,而全球范围内都在倡导节能减排,推动绿色循环低碳发展,因此如何高效回收利用车辆振动能量已成为当下人们关注的焦点。本文依托国家自然
发展可持续和无污染的能源以取代目前占主导地位但逐渐“枯竭”的化石燃料,仍然是一项重大挑战。电能和化学能间的能量转换是一个很有前途的“桥梁”,它通过与可持续能源(如风能、太阳能)的协同作用,从而缓解能源短缺问题。与锂离子电池或燃料电池等其他储能技术相比,电化学分解水生成清洁的氢气(H_2)和氧气(O_2)是一种可行的方法。然而,其需要价格低廉且高效的电催化剂来进行反应。过渡金属硫、磷化物因具有高的电
随着全球经济的快速发展以及我国综合国力的不断发展,国家和社会对教师的需求已经从“数量”变为“质量”。体育教育专业是一个历史悠久、发展成熟稳定的专业,也是唯一一个以培养体育教师为目标的专业,创办以来为我国培养了一大批高素质的体育教师。但是,体育教育专业还存在许多问题,人才培养质量受到了严重的影响,目前,体育教育专业招生点的总体数量持续上升、专业区域分布严重不均衡,体育教育专业的竞争已经演化为人才培养
移动互联网的普及,智能移动终端的便利性,消费者需求的个性化,消费特征的多样化等,使得传统商品营销的控制力日渐减弱,服装行业的营销手段和服务模式逐渐发生改变,以“随叫随
网络游戏成瘾的负面效果对当代大学生的生活和学习有着至关重要的影响,因而对网络游戏成瘾的研究和探讨受到了更多的重视。网络游戏体验是个体玩家沉迷于网络游戏的众多因素之一,但与以往多从人格因素和环境因素探讨网络游戏成瘾的研究不同的是,从网络游戏体验的角度出发是一种从主观角度,而非客观角度出发去探索网络游戏成瘾。本研究旨在探讨网络游戏体验对网络游戏成瘾的影响,同时兼顾化身认同在其中的中介作用以及自我同一性
在众多基于无线通信的应用中,无线信号的非视距传播会严重影响甚至降低无线应用的性能。对无线信号传播状态进行识别从而区分出非视距传播有助于加强这些无线产品的应用。现如今,为了满足日益增长的通信流量需求,毫米波通信已经成为下一代移动通信的关键技术。不仅仅限于移动通信领域,在室内定位领域,手势感知领域,毫米波也在扮演着越来越重要的角色,并在未来众多的通信技术中拥有着广阔的应用前景。因此完成毫米波系统下的信