基于解纠缠深度神经网络的人手姿态估计

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:WANGYUEWANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的快速发展,智能机器人已经从方方面面渗透到人们的日常生活中,人机交互的地位日益凸显。基于人手的人机交互在许多场合都发挥着重要作用,例如在虚拟现实中使用手进行信息输入、屏幕转换、信息获取等操作。因此作为手部交互的基础性工作,3D手势姿态估计具有很重要的研究价值。近年来,随着深度学习和卷积神经网络的发展,基于RGB图像的3D手势姿态估计引起了广泛的关注与研究,也取得了不错的成果,但是由于单视角RGB图像缺少深度信息,背景复杂,人手姿态多样,获取3D姿态标注困难等问题使得该项任务仍然具有很大的挑战性,因此有必要对该项任务进行深入的研究。本文的研究内容如下:(1)基于解纠缠理论与跨模态变分自编码器模型提出单模态输入多模态输出的解纠缠模型cm SIMO-βVAE,并在该模型的基础上设计了带有注意力机制的da-VAE网络。该网络采用变分编码器结构将输入图像编码,通过注意力模块与解码器输出结合,对隐空间变量解纠缠,分解为分别代表手的姿态、手的形状和手的外观(颜色/纹理)语义信息的子空间,获得更有效的手姿态信息,从而实现更准确地手势姿态估计。在几个公开数据集上实验结果表明,分解的子空间中学到的信息符合所赋予的语义信息。本文的方法能够从单张RGB图像预测较准确的3D手势姿态,与当前的最优效果相当。(2)有3D姿态标注的训练数据不足是影响手势姿态估计性能的一个主要因素,然而获取准确的3D手部姿态标注的过程是很困难并且非常耗时的,获取成本比较高。本文提出了一个半监督解纠缠网络结构,该网络通过在特征层面对RGB图像进行解纠缠,提取更有效的手部信息,实现以半监督方式从RGB图像预测手的3D姿态。该网络充分挖掘了未标注RGB数据的潜在特性来提高手势姿态估计的准确性,减少了模型对有标注数据的依赖。实验结果表明,本文的方法能够从单张RGB图像预测较准确合理的3D手势姿态,证明了对有标注训练数据集用未标注的RGB图像扩充可提升手势姿态估计的准确性。
其他文献
显著性目标检测目的是识别出图像中最吸引人的对象或区域,是计算机视觉领域的重要任务。根据输入数据的类型,现有的显著性目标检测算法可以分为3类:RGB、RGB-D以及光场方法。与RGB以及RGB-D数据相比,光场数据包含丰富的场景信息,能够满足困难场景的信息需求。近年来,深度卷积神经网络的发展取代了传统基于手工特征的算法,显著提高了光场显著性目标检测的性能。然而实际场景中,较高的光场数据获取成本、极为
学位
深度伪造技术的出现和发展使得视频内容的真实性无法得到保证,同时深度伪造内容的迅速传播和受到的广泛关注使其带来的负面影响和潜在威胁日渐严重。因此,深度伪造检测技术的研究对个人隐私的保护和社会信任体系的维护都有着极其重要的意义。本文的研究内容是面向不同质量的深度伪造检测。现有的检测方法在面向经过压缩的深度伪造图像和视频时,检测准确率会出现明显的下降。本文将检测不同程度压缩率的深度伪造图像和视频定义为不
学位
人群计数任务是指对图像中的人数进行准确估计,在交通控制、安全监测和环境研究等方面有很高的应用价值。近年来,研究者们对基于深度卷积神经网络的人群计数方法进行了深入研究,人群计数模型的性能越来越优异。然而,人群计数任务的泛化性问题却研究较少,不具备泛化性的人群计数方法的应用范围十分受限。基于上述研究背景,本文对人群计数任务的泛化性问题进行探索,并提出了人群计数的泛化性方法。本文完成的主要工作如下:(1
学位
手部姿态与形状估计技术在人机交互、增强现实、虚拟现实、智能机器人等领域具有广泛的应用。近些年,随着深度学习的迅猛发展,涌现出大量基于计算机视觉的手部姿态与形状估计方法。尽管这些方法已经取得较高的估计精度,但是它们通常需要借助大量含有3D标签的数据进行训练,而3D标签的获取需要消耗大量的人力成本,因此研究不依赖于3D标签数据的手部姿态与形状的弱监督估计方法是十分必要的。为了减轻网络对3D标签的依赖,
学位
舰船检测在海洋环境监测与港口安全保障中起着至关重要的作用,而基于传统光学图像的方法易受光照与天气条件影响。合成孔径雷达(Synthetic Aperture Radar,SAR)图像凭借其全天时、全天候的优势,成为舰船检测的重要数据源。随着机器学习等相关领域的发展,SAR图像舰船检测方法的性能不断提高。然而,近岸区域作为各个领域的重点关注区域,其舰船检测仍存在诸多亟需解决的问题。一方面,由于近岸区
学位
人手是人机交互领域的重要研究对象,而基于视觉的手部姿态估计是虚拟现实、手语识别、机械手智能操作等人机交互应用的重要环节。近年来,随着深度学习和神经网络技术的快速发展,涌现出大量优秀的基于视觉的手部姿态估计方法。但是在手物交互的情境下,由于物体的遮挡问题,会加深手部姿态的模糊性,影响手部姿态估计结果的精准度。目前手物交互情境下的手部姿态估计方法仍有提升的空间,有必要对此展开研究。针对物体的遮挡问题,
学位
针对工程中因现场条件限制需设置超高桥台的问题,基于Midas有限元分析软件,按不同比例考虑台前土压力作用,计算桥台内力,分析台前土压力对桥台内力、变形等的影响,结合项目实际观测情况,得到一个相对合理的台前土压力计算值。
期刊
医疗图像是辅助医生诊断的工具,已经广泛应用于现代医学诊疗之中。随着人工智能时代的到来,基于深度学习的肿瘤识别、病灶区域分割等技术不断涌现。而这些深度学习模型的建立,需要大量的数据及对其清晰准确的标注。但是在实际生活中,不同于普通图像数据,医疗图像数据具有以下的特点:医疗图像的处理与标注专业性强,且对准确性要求高,因此资源匮乏且不易获取;数据中包含极其敏感的隐私信息,受到法律法规的保护,因此各医疗机
学位
为了开采、利用和保护海洋资源,人类在水下的活动越来越频繁,因此,对于高效和可靠的水下通信具有迫切的需求。相较于水声通信和水下射频通信,水下无线光通信具有速率高、带宽大、时延超低、保密性好、成本低等优势,受到了学界和业界的广泛关注。但是,相较于陆地通信环境,水下环境动态、复杂和多变,光信号在水中传播除了受到水体的吸收和散射造成的衰减之外,还会受到水下湍流造成的光信号的严重衰落,对通信的距离和服务质量
学位
红外小目标检测技术在气象灾害预警、医学图像处理、辅助驾驶等领域有着广泛的应用。红外图像特征不明显且杂波干扰较多,这会极大增加小目标的检测的难度。在一些应用场景下,检测跟踪算法的实现装置需要具备隐蔽性、低功耗、实时性等特点,普通移动端设备很难满足此需求。为了满足上述要求,使用带有硬件加速特性的小型边缘计算设备是非常必要的,本文经过综合考虑最终选用ARM+FPGA的异构计算平台Zynq作为实现红外弱小
学位