【摘 要】
:
三维人体姿态估计是计算机视觉领域中的热门课题。三维人体姿态估计可以作为人体姿态识别、人体跟踪、行为识别等任务的基础,同时在高级人机交互,智能监控等领域拥有广泛的应用前景。由于从单目图像预测三维空间信息是十分困难的,并且姿态图像存在着遮挡和视差等问题,使其非常具有挑战性。随着深度学习在多领域的成功应用,具有强大学习能力的深度神经网络也逐渐成为三维人体姿态估计任务的最佳选择。本文将基于深度学习,采用分
论文部分内容阅读
三维人体姿态估计是计算机视觉领域中的热门课题。三维人体姿态估计可以作为人体姿态识别、人体跟踪、行为识别等任务的基础,同时在高级人机交互,智能监控等领域拥有广泛的应用前景。由于从单目图像预测三维空间信息是十分困难的,并且姿态图像存在着遮挡和视差等问题,使其非常具有挑战性。随着深度学习在多领域的成功应用,具有强大学习能力的深度神经网络也逐渐成为三维人体姿态估计任务的最佳选择。本文将基于深度学习,采用分阶段的方法预测单目图像的三维人体姿态,首先利用二维关节检测器获取人体二维姿态,然后从二维姿态回归三维姿态。本文在深度学习的框架下,通过设计合理的网络结构以及人体关节约束使网络学习人体动力学知识。实验结果表明,本文提出的方法在一定程度上避免了因遮挡等问题导致的预测误差,从而提升了三维人体姿态的预测精度。具体内容如下:(1)基于多阶段监督的时序卷积网络结构设计。由于通过单张图片预测三维人体姿态容易因关节遮挡等问题导致预测准确度较低。本文选择以序列图片代替单张图片进行三维人体姿态估计,将由二维人体姿态检测器获取的二维人体姿态序列作为网络模型的输入,通过时序卷积网络自主学习人体运动中所隐含的动力学知识,同时对网络增加多阶段监督,进一步提高了模型的精度。(2)基于人体关节约束的三维人体姿态估计。因为从二维图像恢复三维人体姿态本身是一个病态问题,需要引入更多的人体姿态知识作为监督信息,以提升姿态估计的准确度。因此,本文对上述网络模型的学习加入了人体动力学的约束信息,通过对人体关节点真实数据的分析,在深度模型损失函数中加入了几何约束,用于训练网络模型。通过对加入几何约束的模型的性能分析,验证了这种来自人体动力学知识的监督信息的有效性。
其他文献
近年来,随着计算能力的快速提升,数值模拟在科学研究与工程设计中发挥着越来越重要的作用,但是由于在数值模拟中不可避免的有近似、简化和人为因素,因此数值模拟结果的可信度成为人们越来越关心的问题。不确定性度量化(Uncertainty Quantification,UQ)是近年来计算数学新兴的研究方向,其作用是定量表征模拟结果反映复杂过程的程度。由于很多问题数值模拟计算量大耗时长,难以开展大样本的计算,
医生在诊断过程中往往需要医学图像的辅助,准确的医学分割图像对医生诊断病情、制定一些疾病的治疗方案具有重要意义。核磁共振成像是目前应用最为广泛的脑部成像手段之一,但其特殊的传输方式会导致图像受到混合噪声的干扰,且由于图像自身对比度低,内部组织形状不定,分离病灶部位与正常组织变得更加困难。为了设计一种满足临床医学实际需求的MRI脑部图像自动分割算法,本文利用哈佛大学医学院图像库中的MRI图像,从去噪和
阵列电化学生物传感器(Electrochemical Biosensor Array,EBA)凭借其选择性高、灵敏度高、分析速度快等优点受到广泛关注。微阵列电极作为换能元件,其对电化学传感器的性能起着关键作用,所以构建高性能电极材料成为当前研究热点。本文提出了一种将数字微镜器件(DMD)无掩膜多步光刻与电化学沉积相结合的技术,利用光刻系统压电平台(PZS)运动的高分辨率运动和DMD生成图案的灵活性
近年来,随着人工智能技术的不断突破与互联网技术的飞速发展,使越来越多的用户利用互联网技术进行在线学习,同时新冠疫情的爆发也促使在线教育平台拥有了更多的用户。在线教育平台使高质量的教育资源得以普及,尽管越来越多的教育家提倡个性化教育,但当前的教育模式仍由班级教学为主导。用户可以利用学习资源在老师和同学帮助下获取知识,群组推荐正适用于此类需求。尽管在线学习平台为学生带来了学习方式上的便利,但如何有效的
透明可拉伸多功能传感阵列在弯曲、拉伸等动态应变下可以感知多种刺激,发挥应变、压力和接近等传感功能,在透明智能电子皮肤、人机交互、智能机器人和假肢等领域展现出重要的应用前景。目前,由于材料性质和器件结构的限制,想实现透明可拉伸的多功能传感器面临如下挑战:1.需要传感器所有组件的材料(电极,敏感材料,封装材料等)都是透明且可拉伸的;2.需要区分不同功能的信号,以实现应变下传感的精确探测。针对以上问题,
三维人体姿态估计是计算机视觉领域的热门研究问题之一,其在人机交互、动画制作、视频监控等方面有着非常广阔的应用前景。本文主要研究面向自然场景的三维人体姿态估计问题,即对单视角自然场景图像计算其中目标人体各关节的三维坐标,从而恢复人体的三维姿态。目前对该问题的研究存在两大难点:第一,从单视角二维图像恢复三维人体姿态存在不准确性。单视角图像损失了大量的深度信息,使得从二维到三维的变换存在高度非线性;第二
近年来,随着移动网络和智能设备的发展,物联网得到了迅猛发展,日益增多的基于物联网的智能应用不断出现,高度互联的智能设备以及其产生的大量的交易数据引发了安全和隐私的关注。区块链作为新型分布式计算框架,具有去中心化,不可篡改,可追溯等特性,正在被广泛地应用于金融、电子取证、商品溯源等各种领域,在物联网领域区块链的应用刚刚开始。但是目前已有的包括比特币、以太坊、超级账本等在内的区块链平台计算开销大,这种
随着计算机视觉领域的快速发展,许多研究人员的关注焦点聚集于人体动作识别方向。该研究方向多运用视频分析的方法对人体动作进行识别,然而人体动作间灵活性高、差异性小,运用视频分析对人体动作类别进行准确识别仍面临诸多困难。随着视频获取设备的日益成熟,运动中的人体骨架信息越来越易于获取,且人体骨架信息对于光照、场地、遮挡等问题均具有一定的鲁棒性,因此基于视频的人体动作识别逐渐转为基于骨架的人体动作识别。人体
肺癌作为全球发病率、死亡率均位居前列的疾病,严重危害人类的健康,尽早发现与治疗是降低肺癌死亡率的重要手段。肺结节是肺癌的早期存在形态,及时诊断肺结节是提高肺癌患者治愈率的关键。CT技术是目前临床医学中应用最为广泛的诊疗手段,但CT诊疗产生的数据以指数倍形式迅速增长。因此,医生人工观察CT图像进行疾病诊断需要巨大的工作量,效率较低,且诊断结果通常带有较强的主观性。为提高医生的诊断效率、减少医生的工作
显著性检测是指从图片中找到最“引人注意”的一个或若干个物体的过程,其本质上是一种心理学过程的计算机重现。深度卷积神经网络技术在当前图形图像各领域的应用中展现了不可思议的能力,在显著性检测领域也不例外。目前,最先进的方法都是基于深度卷积神经网络技术研发的。这其中,Lee等人提出的ELD(Encoded Low Level Distance)算法将底层特征和高层特征统一编码,统一训练,是一种非常值得借