基于视觉Transformer的视频动作识别方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jwqpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频动作识别是计算机视觉领域中重要的研究内容之一。近年来,基于Transformer的模型已经成为计算机视觉领域的研究重点。基于Transformer的视频动作识别任务依旧面临着严峻的挑战:首先,视频中包含了丰富的信息,光流以及骨骼特征都可以被运用到模型中,如何在Transformer中有效运用这些信息,是目前研究的一个难点;其次,视频模态与自然语言模态有巨大的区别,视频数据建模方式的选择,将在很大程度上影响模型的表现;最后,如何获取视频中的细节信息,过滤掉视频中的冗余信息,进行视频细粒度的动作分类也是一个重要难点。本文结合视觉Transformer技术与双通路卷积神经网络的设计理念,提出了多种模型来研究视频动作识别。本文的主要工作包括:1.提出了融合骨骼特征的视觉Transformer(SF-ViT)的动作识别方法。本文通过Transformer模型的token化手段,完成了视频的RGB输入与骨骼点输入的嵌入,并有效融合RGB与骨骼特征,建立空间-时间Transformer结构来实现视频的动作分类。验证了骨骼数据与RGB融合在Transformer架构中的可行性。2.提出了双通路视觉Transformer(TP-ViT)的动作识别方法。本文创造性地将空间通路一分为二,在不同通路输入不同的视频采样,通过横向连接融合两个通路的特征。利用第二通路来捕获更多时间维度的语义信息,提升了模型的性能表现。3.提出了屏蔽采样与非对称自注意力预训练方法。本文通过屏蔽采样来使第二通路具备细节获取的能力,以完成细粒度动作分类的任务。同时本文通过构建非平衡的图像重建网络对第二通路进行预训练,这种预训练能够与屏蔽采样的方法相适应,在缩短训练时间的同时,提升其正确捕获视频细节的能力。本文的方法在Kinetics和FinGym数据集上完成相关实验。在模型结构优化的过程中,本文提出的方法获得了不断提升的实验表现,取得了优于当前主流方法的实验结果,同时验证了本文方法的有效性。
其他文献
G蛋白参与的信号转导途径是真核生物体内高度保守的信号通路,参与调控生物体内多种重要的生命活动。目前对于G蛋白的研究大多集中在动物中,植物中这一重要的信号通路的研究相对较少。水稻体内的异源三聚体G蛋白参与水稻体内多种重要的生物学功能,是水稻粒形调控的重要信号通路之一。已有的研究表明水稻异源三聚体G蛋白的三个典型亚基Gα(RGA1)、Gβ(RGB1)、Gγ(GS3和DEP1)均参与水稻体内的信号转导途
学位
高端民营医疗作为社会医疗体系的重要补充,有效填补了部分患者追求效率、舒适环境、人性化关怀、定制化服务流程等的需求空白。高端民营医疗的性质决定了其市场化特性和公司化治理模式。因此,管理者目标是通过建立高度信任的关系,来“拥有”客户,从而实现客户的终生价值,这就要求管理者需要不断改进经营管理模式来增加患者忠诚度。因此,本研究探讨影响高端民营医院患者品牌态度忠诚的因素和影响机制。本文首先对现有感知风险、
学位
微生物极广泛地分布在地球上,微生物不仅仅在自然界中,同时也在人类生产活动中扮演着极其重要的角色,然而我们目前为止所认识的微生物仅仅为其中很小一部分。分离培养及多相分类学鉴定自然环境中的各种微生物,可以丰富微生物资源库,对实际应用有很重要的意义。这对实际应用有很重要的意义。功能性微生态系统作为一种分解剂具有很高的效率,有助于解决环境问题。如果我们能够准确地理解微生物的价值,并根据需要使用它们,我们就
学位
随着区块链2.0平台的出现,智能合约成为了区块链的核心,区块链系统需要管理供智能合约访问的状态数据。这使得区块链系统的每个节点完整保留一份数据副本的全复制存储方式受到了巨大的挑战,尤其在吞吐率较高的许可链场景中这一问题显得尤为重要。近来,也有研究人员对离线区块数据采用拜占庭容错的分片存储来缓解这一问题。而状态数据,由于受到防篡改数据结构的约束,很难直接分片存储。本文主要解决区块链系统中的状态分片问
学位
用户行为序列是按时间排列的用户行为数据,反映了用户随时间变化的偏好特征。序列推荐系统通过序列化地建模用户的行为序列学习用户不断进化的兴趣,关注的核心问题是:(1)如何为用户精准提供感兴趣的商品,(2)在怎样的适宜时间点推荐。对于第一个精准推荐的问题,图神经网络模型由于能够建模序列中复杂的转移关系,在序列推荐领域具有很好的表现。但是此类方法面临两个挑战,首先是将序列转为图时,物品的顺序信息缺失;其次
学位
事件检测是自然语言处理中的经典任务之一,也是事件抽取与构建知识图谱的关键步骤。利用大量标注样本训练基于深度学习技术的语言模型,然后对非结构化文本按照预定义的事件类型分类,是完成事件检测的传统思路。然而面对互联网中日益增长的非结构化文本内容,大量未被发现的新事件类型层出不穷,为这些未知事件标注样本的工作将消耗大量的人力物力。因此,零样本事件检测任务被提出,旨在使模型自动发现并归类新的事件类型,而不依
学位
多目标跟踪是计算机视觉中一项重要的的任务,在自动驾驶、视频监控等领域有着广泛的应用。该任务旨在跟踪视频中出现的所有目标,具体而言是将当前视频帧中检测出的目标与历史帧中的目标进行匹配。近年来,深度学习算法在图像和视频任务上取得了重大突破,也得到了广泛应用。基于深度学习的多目标跟踪模型目前主要包括两类:检测跟踪(Tracking-By-Detection,TBD)模型和联合检测与嵌入(Joint de
学位
水稻(Oryza sativa L.)是世界上最重要的粮食作物之一,也是一种被广泛应用于基础研究的模式植物。垩白是稻米中白色不透明的部分,垩白直接影响稻米的外观品质、商品流通、蒸煮食味品质和加工品质,是衡量稻米品质的重要性状之一,并且与稻米其他外观品质显著相关。垩白是复杂的数量性状,受多基因调控,且易受环境影响。随着全球气候变暖,高温胁迫尤为严重,特别是我国长江流域水稻受高温影响最大,因此研究高温
学位
强化学习在现实世界中拥有广阔的应用场景,但强化学习的训练过程需要与环境交互收集数据来更新决策策略,这限制了强化学习在一些对安全性十分敏感的场合的应用。而离线强化学习可以通过数据集来训练出高效的决策策略,训练阶段无需与环境产生交互,因此近些年来离线强化学习受到了研究者们的广泛关注。然而,现有的关于离线强化学习的研究却忽略了离线强化学习决策的安全性。在不与环境交互的情况下,从包含不安全决策的数据集中学
学位
全世界皮肤病变率以及死亡率在不断增长,其中以黑色素瘤为代表的皮肤病死亡率达到最高。现今,皮肤镜检查是医学上非常普遍的皮肤病诊疗方式。但大量的皮肤病变数据使得有限的皮肤科医生无法一一诊断,不仅耗时而且可能具有主观性,这导致皮肤病的诊断和治疗存在一定的困难。所以,急需将自动分割技术应用于皮肤病变,以辅助皮肤科医生进行及时诊断和治疗。目前,皮肤病变的自动分割仍存在挑战,包括模糊不规则的病变边界,病变与周
学位