面向3D人体姿态估计的深度学习算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:kaka88899999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维人体姿态估计的目标是在三维空间中预测人体关键点的位置。由于其具有广泛的应用前景,如:动作识别、增强现实和训练机器人等,因此一直是计算机视觉领域的研究热点问题。特别是近年来随着深度学习的不断发展,提出了诸多不错的三维人体姿态估计算法,但是依然存在很多问题有待解决。比如在单目3D姿态估计任务中,四肢关节(即腕、踝等)的自由度大于其他关节(即髋、胸等)。从而使得估计误差会沿着人体部位的生理结构累积,而且其时序轨迹更复杂。另外,3D人体姿态估计根据不同的因素已经发展成多种框架,涉及相机数量、视频序列长度以及是否使用相机校准。这些框架相互不兼容,严重限制了3D姿态估计算法的部署灵活性。针对上述问题,本文分别提出了两种姿态估计算法来提高模型的准确率和通用性,其主要工作和贡献概括如下:针对单目姿态估计中四肢误差累积的问题,提出一个基于骨骼角度的三维姿态估计算法(Limb Net)。该算法模型包括一个运动学约束网络以及一个轨迹感知模块。运动学约束网络包含两种约束,即相对骨骼角度和绝对骨骼角度,前者用于构建相邻骨骼之间的角度关系,后者用于构建骨骼与相机平面之间的角度关系。轨迹感知模块将关节的时序轨迹作为输入,并生成融合的姿态。在运动学约束和轨迹网络的作用下,缓解了误差沿四肢累积的问题。Limb Net在四个常用的数据集上进行了实验并验证了算法的有效性。针对多目姿态估计中模型通用性差的问题,提出一种兼容各种相机配置的统一框架(MTF-Transformer)。MTF-Transformer可处理不同相机数量的可变长视频,并兼容相机标定和未标定场景。它由特征提取器、多目融合变换器(MFT)和时序融合变换器(TFT)组成。特征提取器从图像预测2D信息,并将其编码成特征向量;MFT通过相对注意力模块自适应地度量相机之间的隐含关系并重建特征;TFT聚合可变长时序特征,并输出3D姿态。通过这些模块,MTF-Transformer可以处理不同的应用场景,从单目单帧到多目视频,相机标定到未标定。MTF-Transformer在三个常用数据集上进行了定量和定性实验,实验表明该算法可以很好地应用到其它动态相机场景。
其他文献
联邦学习(Federated Learning)作为一种新兴的分布式机器学习范式,可以联合不同的组织或用户共同训练机器学习模型。具体来说,在保证整个训练过程数据一直保留在本地不被泄露的前提下,通过中央服务器协调大量客户端(例如手机、电脑和运动手环等)共同训练得到一个最优全局模型,在保护数据隐私的同时打破了数据之间的壁垒,以此来解决数据孤岛问题。不同于传统的分布式机器学习方法,联邦学习面临诸多严峻的
学位
近年来,以大数据为背景的深度学习方法在机械故障诊断领域取得了令人瞩目的成就,为设备的智能故障诊断研究提供了重要途径。然而这些研究都是在训练数据充足的基础上实现的,模型的诊断效果受数据量的影响较大。在实际工作环境中,由于各种条件限制,为每种轴承状态收集和标记的故障数据可能会出现信息不充分的情况。具体来说,当故障样本远少于正常样本,会产生数据分布不均衡现象;而当各类轴承数据的绝对数量都很少时,表现为小
学位
随着老龄化问题的日益严重,针对老人的看护问题已成为当下社会的研究热点之一。摔倒作为对老年群体健康威胁最大的因素之一,不仅会严重影响老年人的身心健康,还会给公共卫生事业带来巨大压力。依靠人力对老人进行看护效果虽好,但低效且占用大量医护资源。现有的基于视觉的摔倒检测系统普遍采用固定摄像头,此类系统无法在其视觉盲区对目标进行有效监测。针对以上问题,本文对行人跟踪算法与行人失稳姿态检测算法展开研究。首先,
学位
大数据时代,图像、视频等视觉数据呈现指数级增长,传统的计算机视觉理论与方法面临着前所未有、日益严峻的挑战。而显著性检测作为智能视频处理中一项关键支撑技术,可有效定位图像、视频序列中感兴趣的目标区域,以便于从大量冗余信息中提取对当前任务有益的信息,为智能图像、视频处理中目标识别、场景理解、行为分析等高层任务提供可靠数据,具有重要的军事、商业和社会价值,已被广泛应用于智能安防、航空航天、人机交互、工农
学位
随着自动控制理论的发展,固定翼无人机的应用也愈发广泛。速度和姿态控制策略是固定翼控制研究的基本问题。固定翼无人机是典型的具有非完整线性约束运动体,其具有强耦合、非线性等特征。此外,风速等外界扰动对固定翼无人机飞行影响也较大,对于不同形态的固定翼无人机,其飞行姿态与速度控制效果也不尽相同。因此,相较于其他构型的无人机,固定翼无人机的控制器设计要求更为复杂,控制难度也更大。奇异摄动法本质上是一种时标分
学位
随着温室大棚数量的增长以及农村劳动力数量的下降,可以在恶劣环境中自主作业的温室植保机器人成为当前研究热点。因为在温室内无法使用GNSS进行定位导航,所以实现温室内植保机器人的建图导航具有重要意义。本文以实现温室内植保机器人的自主运行为目标,设计基于视觉、激光融合的建图导航系统,主要工作内容如下:首先根据温室机器人的工作场景,分析机器人建图导航系统的需求,设计多传感器融合的建图导航系统方案。建立机器
学位
烷类气体同属于碳氢类气体,具有许多相似的物理和化学性质,并且烷类通常混合在一起,现有的检测技术在遇到混合烷类时难以辨别其主要成分。甲烷作为最常见的烷类气体,广泛存在于日常生活和工业生产之中,并且属于危险性气体,对甲烷的辨别十分必要且重要。甲烷辨别对于保障人们的生产生活安全、保护环境等都有重要的意义。为实现甲烷气体的辨别功能,本论文首先通过对比分析,选择当下前沿的NDIR检测技术,设计采用四光源单传
学位
随着社会的不断发展,我国的公路里程井喷式增加,汽车保有量也急剧增加,因台风、暴雨、冰雹、寒潮、雾霾等恶劣天气引发的交通事故频发,给国民经济造成了不可估量的损失。目前,交通安全已经成为社会发展的热点问题。为了做到对交通运输环境实时监测和突发事件及时预警,建立基于物联网和大数据的道路交通气象灾害监测预警系统迫在眉睫。针对上述情况,通过对现有的国内外技术进行研究分析,本文设计了一种便携式道路交通气象信息
学位
随着城市化的快速发展,消防安全隐患与日俱增,消防安全管理和灭火救援面临新课题。由于城市建筑建设周期较长,大部分消防管道埋地敷设,导致阀门、管道腐蚀严重,漏水点较多。部分单位消防供水达不到设计要求,严重时会导致无水可用,一旦发生火灾会造成严重后果。因此消防供水监测系统就显得尤为重要。针对上述问题,本文结合物联网及其关联技术,设计了一种消防供水智慧监测系统。系统包括智能终端、管理平台、云服务器和手机客
学位
视频目标分割是一种对视频中的前景目标和背景区域进行分离,实现像素级分类的任务,在视频编码、姿态分析、自动驾驶以及短视频娱乐等方面具有广泛的应用。根据在测试阶段视频所给标注形式的不同,该任务可以分为无监督、半监督、弱监督和交互式四大类别。随着深度学习技术地不断发展,视频目标分割取得了很大的进步,但现有的许多算法都是以牺牲分割速度为代价来提升分割精度,并且在复杂场景下分割的效果往往比较差。本文对弱监督
学位