基于深度学习的细粒度动作识别方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:caozhongxiang520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频的识别与分析是计算机视觉领域重要的研究内容之一。其中,视频的细粒度动作识别是一项更加精细且具有挑战性的识别任务。主要挑战有:公开的细粒度动作识别数据集很少,限制了在该领域的研究进度;与粗粒度动作识别相比,细粒度动作识别旨在区分一个大的动作分类中的子类,这些子类之间的差异更加细微,通常只能借助于微小的局部差异才能区分出来。现有的细粒度识别任务一般采用目标检测、注意力机制等相关方法寻找并利用图像中的局部区域信息。但是,这些方法大多用于图像识别任务,所以它们缺少对视频的时序信息的利用。本文分别运用了基于双流和三维的两种卷积神经网络结构来研究细粒度视频动作识别。具体地,本文的主要工作包括:1.提出了一个细粒度的篮球视频数据集Basketball。它由多个篮球比赛的直播视频组成。我们首先选取了运球、传球和投篮这三种粗粒度的动作进行分类,接着进一步细分为26种细粒度动作。本文的所有实验均会在这个数据集上实现。2.提出了基于区域筛选的双流方法。通过筛选网络来定位视频的信息区域,以提取出细粒度动作中有区分性的特征。3.提出了两种基于注意力机制的双流方法。方法一是基于空间域的注意力机制,使用多尺度融合技术,利用图像的不同特征尺度来定位到不同的局部区域。通过使用特征金字塔,网络可以学习到具有关键信息的区域特征。方法二是基于通道域的注意力机制,使用多尺度通道注意力模块,研究通道之间的相互依赖关系来提升网络性能。最后通过注意力特征融合模块将特征进行融合。4.提出了基于三维注意力机制的方法。参考Slow Fast网络,使用一个Slow通道和一个Fast通道分别识别视频中静态细节信息和动态信息。我们设计了一个三维注意力特征融合模块,考虑特征通道之间的关系来实现关键区域的注意力。同时,通过基于位置注意力机制的Non-Local模块来获取图像位置间的长距离依赖关系,更好地提升该三维模型的性能。本文的所有方法会在Basketball篮球数据集和MPII烹饪数据集上完成相关实验。在各个网络优化的过程中,这些方法取得了不断提升的结果,并且识别性能优于当前的主流方法,这验证了本文方法的有效性。
其他文献
Cayley图的整谱图一直是数学领域的一个重要研究分支,Cayley图在1878年由A.Cayley提出,设G是一个非平凡群,S为G的不含单位元的可逆子群,我们把G的Cayley图用Cay(G,S)来表示.我们称一个图是整的,若其邻接矩阵的特征值是整数.设X=Cay(G,S)是群G由子集S生成的Cayley图,且S=S-1.定义符号函数σ:(si,sig)→{+1,-1},若σ满足σ(si)=σ(
在快速城市化地区,生态系统服务的供给与需求通常存在不匹配现象,传统的需求分析中较多依赖客观数据和指标的评价,而忽视城市居民对生态系统服务的主观感知,导致评价结果不能真实反映城市区域的供需匹配情况。本研究以上海市为案例区域,基于上海市居民对生态系统服务需求的问卷调查,天地图高分辨率卫星遥感影像、Globeland30土地利用等多源数据,提出一种主客观融合的评价方法,对上海生态系统服务供需关系进行分析
书院起源于唐代,在河南最早的书院为丽正书院,为藏书和修书之所,发展至清代,书院达到普及化的程度,并形成了以讲学、祭祀和藏书为主的功能构架。它在创建之初,就和士人学者提升学术,修炼内心,树人立人的生活方式紧密联系在一起,创建的目的包含了超脱世俗,著书立说,讲经颂道,恩泽后人之意。因此在书院园林之中蕴含着深刻的文化精神。在千年的发展过程之中,书院有兴盛也有衰落,但始终不变的是书院师生对优美书院环境的向
古紫质-4(Archaerhodopsin-4,aR4)是一种类似于细菌视紫红质(Bacteriorhodopsin,b R)的光驱质子泵蛋白,同样具有三聚结构。其差异性在于,每个单体除了由一分子视蛋白和一分子的视黄醛发色团共价结合而成外,单体间还镶嵌有一个类胡萝卜素发色团菌红素(Bacterioruberin),同时二者具有不同的质子传输时序。光照后视黄醛发色团发生all-trans向13-ci
20世纪70年代,R.R.Coifman和G.Weiss为了把欧氏空间的各种函数空间和奇异积分算子理论推广到更一般的度量空间,引入了齐型空间的概念,并开创了齐型空间上调和分析的研究,取得了许多重要的成果.而帐篷空间是一类联系着面积积分与卡尔松测度的函数空间,R.R.Coifman,Y.Meyer,E.M.Stein等人于1985年首次在论文中提出了欧几里得空间里帐篷空间的定义,并给出了该空间中的对
Zadeh在1965年提出了模糊集的概念,标志着模糊数学的诞生,与此同时模糊逻辑也应运而生.由于模糊逻辑联结词(例如:合取、析取、否定、蕴涵等)在模糊逻辑的理论和应用中占有重要的地位,且不同的逻辑联结词的合理组合决定不同的逻辑系统,因此有很多学者研究单位区间或有界格上不同类型的模糊逻辑联结词,特别是由已有的模糊逻辑联结词生成的模糊蕴涵,例如(S,N)-蕴涵,(U,N)-蕴涵和R-蕴涵等.近年来,有
量子通信作为一个新的研究领域,将信息论和量子论相结合,形成了依靠量子纠缠效应来传输信息的新通讯方式。半导体量子点在量子通信中逐渐成为不可分辨的单光子的最佳来源,是未来量子技术中纠缠光源的主要候选人。本论文将采用MBE技术对高对称Ga As量子点进行制备。为制备高对称的Ga As/Al Ga As量子点,首先对Al Ga As薄膜质量进行研究,观察了Al Ga As/Ga As异质外延过程中的表面重
本论文重点研究累积铸造新方法,该方法先在型腔中放置金属预制芯部,然后向型腔中浇入金属液,冷凝后获得铸件,其中的预制芯部和后续浇注的金属可以是相同(相近)金属,也可以是不同金属。当预制芯部和后续浇注的金属是相同(相近)金属时,以加快金属液冷凝速度、调节铸件凝固顺序、提升铸件组织性能为主要目的;当预制芯部和后续浇注的金属是不同金属时,以获得双(多)金属复合铸件为主要目的。国内外均有累积铸造方面的相关研
21世纪以来,由于气候变暖的影响,全球极端天气引起的自然灾害频发,造成了巨大的人员伤亡和财产损失。我国是多山之国,针对山区由降雨引发的灾害进行风险评估,能够切实有效地为相关部门提供科学的防灾依据和有效的避灾指导。针对雅安市的泥石流和洪涝灾害风险评估,首先考虑当地的自然地理环境和社会经济条件,从水文气象类、地形地貌类、地质类和社会类几个方面选取不同类别的评价指标因子。通过GIS软件和MATLAB等工
加筋板结构广泛应用于航海工程、航空航天工程、桥梁工程、建筑及其它现代工业结构中。随着结构(特别是航空结构)提高了减重的要求,加筋板越来越广泛地应用于航海结构及航空航天等结构中。加筋板在承受压缩等作用时,首先发生屈曲。事实上,结构在屈曲以后并不立即破坏,仍旧具有很大的承载能力,即后屈曲强度。因此可以利用后屈曲强度来提高结构的承载能力从而达到减重的目的。近代稳定性理论的核心问题是后屈曲性态的研究。关于