基于零样本学习的动作识别研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:tt24834051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对自然界中人体动作的多样性和丰富性,基于监督学习的动作识别算法已经难以满足各种应用中的需求。近年来,基于零样本学习的动作识别方法使得算法模型能够在不使用新动作类别样本进行额外训练的情况下完成对应样本的识别工作,大大提升了动作识别技术的泛化能力和通用性。
  本文深入研究了基于关系图谱的零样本学习方法,并针对动作识别领域的关键问题和难点提出了一套基于图卷积神经网络和动作关系图谱的零样本动作识别算法( Graph Convolutional Network Zero Shot Action Recognition, GCNZSAR),主要工作与创新如下:(1)本文提出采用多模态融合策略完成网络结构的设计,整个GCNZSAR的结构包含视频多模态特征提取网络,动作类别语义编码网络及零样本分类器三个部分。第一部分基于多流法框架以获取多种模态下视频样本的视觉特征。第二部分提出采用图卷积神经网络和动作关系图谱对动作类别语义进行重编码以获取不同模态下更加优质的动作类别语义特征。第三部分采用隐空间和多模态融合策略进行零样本分类,缓解了现有方法无法有效利用视频多模态信息的难点问题。(2)针对现有方法无法完成多模态动作关系图谱的构建这一难点,本文提出了基于教师网络混淆矩阵、以及基于混淆矩阵和元学习的两种获取动作类别关联的全新方法。其分别面向有无视觉网络模型先验分类结果的情况,能够利用动作类别在多模态下的视觉差异,有效获取不同模态下高效的动作关系图谱,提升GCNZSAR的效果。
  实验结果表明:基于教师混淆矩阵构图方法的GCNZSAR算法在国际标准数据集UCF101及HMDB51上获得了35.7%及25.8%的平均精度,达到了国际先进水平。基于简化GCNZSAR算法的零样本动作识别系统在嵌入式平台上具有一定的落地价值,其在5个全新类别上的平均识别精度超过了50%,且具有44.72帧每秒的预测速率,达到了设计指标。
其他文献
柔性应变传感器在移动医疗,人机交互,智能机器人等领域有着广泛的应用前景。由于碳纳米管(Carbon nanotubes,CNTs)高长宽比,良好的导电性能,以及出色的机械性能,成为柔性应变传感器应用最广泛的纳米材料之一。但是基于CNTs的柔性应变传感器普遍灵敏度较低,如何解决高灵敏度和高拉伸应变范围之间矛盾以及低成本制备应变传感器,仍是亟待解决的挑战。  本论文提出在半固化的硅橡胶(Ecoflex
随着无线网络通信链路不断发展,通信链路的信号接收端对模数转换器(Analog to Digital Converter)的性能指标的要求越来越高。流水线型模数转换器(Pipeline ADC)虽具备很高的采样率,但功耗大且与先进工艺不兼容;逐次逼近型模数转换器(Successive Approximation Register ADC)虽然具备低功耗的优势,但其电容匹配精度限制了其分辨率。而流水线
近年来,心血管病的死亡率在所有疾病中处于首位。心血管疾病会导致异常心率信号的出现;因此,对心率信号和心电图进行分析就成为了检测心血管疾病的主要方法。目前,市面上使用的心电图信号采集仪器存在着便携性与实时性不可兼得的问题,而且数据处理采用人工分析,无法解决大数据量下的心电图信号分析问题。本研究考虑使用基于机器学习的心电图(Electrocardiography,简称 ECG)采集分析系统来解决这些问
学位
先进工艺下,工艺误差对芯片良率的影响越来越明显,模拟电路的快速良率分析方法成为研究热点之一。传统良率分析方法难以解决模拟电路良率分析问题:蒙特卡洛方法需要仿真次数过多,影响整体设计开发周期;重要性采样方法在构建采样分布后很难改变或更新采样分布,难以适应模拟电路特性;替代模型方法无法控制模型拟合误差,难以评估分析结果的准确性。因此,面向多性能指标的模拟电路,设计新型良率分析方法具有重要的研究价值。 
学位
目前高清视频在娱乐、医疗、视频监控等领域的应用越来越广泛,促进了视频超分辨技术的研究。其中,基于深度学习的视频超分辨算法快速发展,但它们在视觉感知、精度、时序一致性的指标方面各有侧重,且模型参数量大。因此需要进一步研究如何更好地综合上述三方面指标,并提升模型推理速度,为视频超分辨技术在嵌入式终端的应用打好基础。  由此,本文设计了基于生成式对抗网络的视频超分辨算法( High Optical Fl
近些年来,二维材料由于其原子级别的厚度、表面无悬挂键等特性逐渐成为研究人员的热点,此外,二维材料之间依靠范德瓦尔斯力结合,所以能够将不同种类的材料组合成异质结结构,更加拓宽了其研究方向。不同于其对应的体材料,石墨烯等二维材料展现出了一系列优异的光电性质,因此广泛应用于高性能场效应管、光电传感器等电子器件,但目前此类器件仍具有些许不足,例如栅氧化层的存在阻碍了载流子的扩散运动,导致了较低的迁移率;使
学位
语音唤醒作为一种关键词识别(Keyword Spotting, KWS)技术,通常用作复杂语音交互设备的接口,是一种小型的关键词检索系统。随着物联网技术的发展,语音唤醒电路被广泛地应用在电池受限的移动、可穿戴设备中,并且保持常开(Always on)的状态,因此该类芯片对语音唤醒电路的功耗要求非常严格。  本文设计了一种极低功耗的语音唤醒电路,主要包括特征提取电路、神经网络电路和后处理电路。特征提
学位
随着物联网技术的飞速发展以及嵌入式芯片处理能力的增强,人体行为检测在智能视频监控、家居安全等领域的需求日益增加。目前基于深度学习的行为检测技术虽然取得了突破性进展,但是依然存在着视频特征提取不够高效、多任务优化不充分、模型复杂难以部署到嵌入式平台等问题,需要进一步的发展和完善。  本文着重于高效的视频时空特征提取方法以及准确的多尺度检测方法的研究,并探索在嵌入式设备上的优化方案,提出了基于2D和3
学位
近些年来,基于无监督学习的图像深度估计算法成为计算机视觉领域的热门研究方向,广泛应用在三维重建、语义分割、SLAM等场景。考虑到算法的应用,FPGA作为一种高度并行化的可编程器件,经过针对性的硬件设计,能够兼顾计算性能与功耗,实现算法在硬件平台的加速设计。在此背景下,本文以基于无监督学习的图像深度估计算法为切入点,实现该算法的硬件加速设计。  本文首先选用对硬件友好的Goard算法方案作为基准方案
基于单目相机的视觉里程计是室内移动定位领域的关键技术。该技术通过追踪视频流图像中的点-线-面特征,建立了相机在现实世界中运动轨迹的数学模型。考虑到室内网格型天花板上存在大量有利于定位的结构化线特征与平面特征,本文设计了一种基于单目顶视相机追踪天花板特征的室内定位系统,并在嵌入式平台上实现。该系统以PL-SVO为基础框架,改进线特征的初始化、坐标优化、匹配以及位姿优化等模块,并增加天花板平面特征优化
学位