结合时空注意力的视频行为识别方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zyfblog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,深度卷积神经网络已被广泛应用于视频行为识别领域。现在的方法通常是在基于图像识别的骨干网络上做提升,尽管取得了一定进展,但究竟什么样的网络结构能够既有效又快速地处理视频,仍然是一个有待解决的问题。借助神经网络架构搜索(NAS),本文在Res Net网络的基础上搜索了视频网络架构中三个超参数的选择,它们分别是神经网络各阶段输入的帧数、每个阶段的卷积层层数以及这些卷积层的通道数。本文NAS方法是在连续的搜索空间中基于梯度进行搜索的,以分类准确率为主要优化目标,计算复杂度为次要优化目标,搜索出了一套既准确又高效的网络结构。该网络结构还具有时间注意力机制,可以决定每个阶段需要输入的图像帧数。除了对于网络结构本身的探索,注意力机制也越来越多地被用于视频行为识别任务中。研究者们不仅仅在时间维度上使用注意力机制寻找视频中的关键帧,在空间维度上也开始使用注意力机制寻找视频图像中具有判别性的区域。本文通过计算类响应图的方式学习了一组稀疏注意力,用于找出视频帧中信息最丰富的区域。每帧视频都将这部分信息重新采样形成两张新的图像,将所有视频帧都经过这样的操作后重新按照原始视频的顺序排列起来,形成两个新的视频。将这两个视频作为新的输入送入神经网络之中,强化图像中判别性区域的学习,提升分类任务的准确性(空间注意力部分)。将这部分与上文提出的带有时间注意力的网络结构结合,共同提升最终的分类准确率。本文在三个视频行为识别常用的数据集Kinetics400、UCF101和HMDB51上的实验表明,本文的方法超过了现有最好的方法。
其他文献
随着开源软件的流行以及开源社区的发展,开源许可证的不合理使用为企业在实际使用的过程中留下了许多法律隐患,而开源许可证大量使用的原因在于基于组件的开发方式的流行,其中组件多以开源软件形式存在,在开发过程中会使用很多组件,而每个组件、每个文件都可能包含不同种类的开源许可证,同种开源软件可能存在不同版本,这些开源许可证之间可能存在一些兼容问题,因此如何对软件进行兼容性分析,如何选择开源许可证来减少甚至消
学位
樱桃,别称“含桃”,落叶果树类中属成熟最早的树种,其果实晶莹饱满,果肉营养丰富,深受消费者喜爱。然而由于种植过程会引发多种病虫害,容易造成产量下滑以致经济效益不高。传统病虫害检测大多依靠种植户的经验判断和农业机构的专业检测,费时费力,实时性差,难以满足现代化农业的发展需求。因此实现樱桃病虫害的精准、快速检测是非常必要的,可最大限度地减少产量与经济的损失。基于上述背景,本文依托樱桃智慧种植项目,设计
学位
目前超市连锁店存在采购成本高、采购效率低、采购模式落后等一系列问题,制约商贸行业发展。因此,本文设计研发了一款以商品集采为核心且具有招标功能的综合服务平台以解决上述问题。系统依托于科技部项目“村镇社区新型商贸连锁综合服务平台研究及示范”课题(2019YFD1101104)属科技部重点研发计划。以湖北省十堰市新合作超市有限公司为研究背景,从超市连锁店的实际需求出发进行开发设计。该系统主要包括用户信息
学位
图像描述生成是涉及计算机视觉与自然语言处理的一个交叉领域问题,在近年来得到了广泛研究,形成了一系列基于编码器-解码器框架的典型方法。其中基于Transformer模型的图像描述生成方法,通过引入自注意力机制,大幅度提升了图像描述的质量,迅速发展成图像描述生成的主流方法。本文基于Transformer模型提出了一种多特征融合的图像描述生成方法。针对标准Transformer模型中的注意力机制没有充分
学位
随着社会的不断发展,信息呈现爆炸式增长,同时由于人力成本的逐年上升,因此对于从大量文本中快速获取文本信息并帮助总结文本的能力便成为了相关工作人员迫切需要的一个的需求。而随着深度学习技术的不断发展,自然语言处理技术也得到了不断的发展,特别是使用自然语言处理处理摘要和文本改写方向更是成为了研究热点。基于以上背景,本文设计与实现了一套基于BERT的辅助阅读系统,能够有效地辅助用户获取原文重要信息,同时生
学位
形式化建模是解决软件模型可信性的重要技术手段,然而当前的形式化模型普遍存在抽象程度高、建模复杂、不支持并发建模等问题。在大型软件的设计开发中,这些问题将进一步地导致建模工作的难度大、无法建立复杂系统模型以及代码质量差等问题。因此,提出一种便于理解、支持简化模型规模以及并发建模的形式化模型是一项十分必要的研究内容。本文提出了一种名为事件处理表格(Event Processing Form,EPF)的
学位
近年来,行人重识别(Person Re-Identification,Re-ID)作为跨摄像头行人追踪和智能安全监控的一项基本任务,受到研究人员的广泛关注。此任务旨在不同的时间、场景和摄像头下检索出相同行人,通常被认为是图像检索的子问题。随着卷积神经网络的发展,行人重识别任务也完成了从传统手工方法向深度学习方法的转变。目前,对于行人重识别研究的挑战在于如何从天气、光照、背景杂乱、遮挡等复杂环境因素
学位
城市交通方式的革新扩大了人们的出行范围,也使人们的出行目的地有了更多的选择。大量充斥在社交网络上的推广信息给人们出行带来了选择困难的问题。兴趣点推荐系统则是解决这一问题的良方。然而,目前的兴趣点推荐多为分析社交网络中用户在兴趣点处的签到历史和用户关系网络进行推荐,城市人群出行规律无法被有效利用,推荐结果偏离出行规律。本文的目的是研究城市中人群移动模式的提取方法,设计基于人群移动模式先验的兴趣点推荐
学位
水下视觉是近距离高精度海洋作业的重要感知信息来源,然而,多种降质因素耦合使得水下视觉图像普遍存在颜色失真、对比度低等问题,进而影响水下视觉勘探、精确作业等任务的性能和效率。水下图像增强、目标检测等人工智能感知技术的出现有助于增强水下感知信息,然而传统的手工设计的神经网络难以满足水下作业对方法鲁棒性、高效性的需求。本文面向实际水下作业需求,针对神经网络性能不足、效率低下等问题,本文旨在通过神经网络搜
学位
Wi-Fi已在全国各区域大范围覆盖和部署,利用Wi-Fi信号对静态目标用户进行感知和定位,不仅成为了学术界重点的研究领域,而且也成为了实现智慧城市的必要技术。采集并处理Wi-Fi信号中信道状态信息(Channel State Information,CSI)可以完成被动人体感知。但由于CSI感知是细粒度范畴,因此如何通过CSI数据完成静态目标用户精准定位和检测非常重要。所以本文的主要研究工作和创新
学位