基于单张RGB图像的三维手部姿态估计方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:anbao01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉领域的不断发展,以及人机交互需求的提升,基于计算机视觉的手部姿态估计方法近几年来层出不穷。深度卷积网络的提出对手部姿态估计研究发展有着显著的效果提升,具有极大的应用意义与研究潜力。目前为止,三维手部姿态估计的方法根据输入信息不同可以分为两种:一种方法为基于普通单目RGB图像,另一种则基于深度图像或RGB-D序列。在基于深度图像的手部姿态估计方法中,一些方法取得了较好的实验结果。但由于深度相机昂贵以及难以普及,且深度相机必须在稳定的室内空间中运行,这样的情况导致基于深度图像的手部姿态估计方法应用场景被限制。然而,由于以下原因,基于RGB图像的三维手部姿态估计任务目前仍然有着极大挑战性。这是由于:1、由于手部灵活度较高,没有充分利用二维信息导致三维估计的准确度较差;2、手部在图像中的尺度较小,导致手部目标难以获取影响手部二维、三维姿态估计准确度。所以本文提出一种基于RGB图像的三维手部姿态估计级联网络,有效的改善了上述问题。针对手部在图像中尺度中较小的问题,本文设计并实现了一种轻量化的剪裁方法,同时利用形态学膨胀原理提升剪裁效果,通过剪裁原图像能准确定位出手部在图像中的位置以提升手的分辨率,同时可以提高后续手部姿态估计的准确性。此外,在后续三维手部姿态估计中,为了更好的利用二维手部关键点热图,本文提出并实现了一种基于二维热图恢复三维手部姿态的方法,该方法与现有三维手部姿态估计方法相比准确度明显提升。针对手部较灵活的特性以及直接从二维信息中恢复三维手部姿态的难点,本文设计并实现了一双通道网络,首先通过注意力机制结构对二维结果直接提升到三维姿态的结果进行微调,其次建立规范坐标系,利用视角估计网络学习规范坐标系与原坐标系的放射关系,以优化三维姿态估计网络的准确度。经过实验证明,该方法有效的提高了三维手部姿态结果的准确性。
其他文献
情感分析是自然语言处理中的基本任务,属于文本意见挖掘范畴,是指对文本数据进行清洗、处理、提取相关特征并计算判断文本蕴含的情感倾向,为各项决策提供依据,被广泛应用在舆情分析、经济发展、法制建设和推荐系统等方面。大量学者对情感分析任务展开研究,已经取得了一定的成果,但仍存在一些挑战。如静态词嵌入方式由于一词多义问题致使提取的特征存在偏差;传统的卷积、循环结构的深度学习网络无法对文本整体进行处理导致特征
随着可视化技术的不断发展,越来越多的地理地质领域的可视化平台不断地进入大众的视野。这些系统的兴起和大量的应用使得越来越多的地理地质科研工作者观察及分析数据更直观,工作效率更高。随着研究的不断深入,研究对象的周期不断增加,因此会产生更大规模的地形信息,更高精度的模型实时渲染和可表达数据连续性的可视化成为了需要解决的问题。因为地形地壳的数据体量庞大,现有的可视化方法不能够高效的对大体量数据进行建模,同
随着大数据时代教育信息化的进一步到来,如何通过大数据分析和现代化人工智能技术自动认知与准确理解教师和学生在课堂中出现的种种行为,并从中准确判断出学生的课堂参与情况,从而对课堂教学质量和学生学习效率进行综合分析是目前亟待解决的问题。在以往的传统课堂师生行为分析研究中,大多只针对课堂师生的言语行为进行种类划分,而忽视了非言语行为在课堂教学中的重要性。并且在判断学生课堂参与情况时,往往只单独根据学生的某
X射线发光断层成像(XLCT)作为一种新型混合成像技术,利用X射线深层激发稀土纳米颗粒,发射近红外光,可以同时采集生物体空间结构信息和表面荧光信息,为深度组织成像提供了可能性。XLCT具有高穿透性和高空间分辨率的优势,在肿瘤早期检测,药物代谢追踪等领域具有临床应用价值。然而由于生物组织中光的散射和吸收作用,XLCT的重建是一个病态不适定问题。因此,高效、鲁棒的重建算法一直是X射线断层成像的研究重点
寒武纪是人类历史长河中不容忽视的一部分,其遗留下来的化石成为了现代人观察和研究寒武纪生物大爆发以及进化发展的可靠依据,随着当前古生物研究领域中化石模型使用率的逐渐增高,也暴露出了模型重建难度大、价格昂贵、过程繁琐以及耗时长的问题。本文通过化石的光学多角度图像,对古生物化石的三维重建方法进行了研究,以下为研究内容:(1)针对目前化石重建过程繁琐问题,通过对光学重建方法的比较,选择从运动中恢复结构(S
图像是人们从外界获取和交换信息的重要来源,然而图像采集过程中通常存在物体运动、相机抖动等因素,造成采集图像模糊失真,严重影响了图像观赏的舒适度和满意度,给后续图像分析理解带来极大障碍。因此,从失真的图像中恢复出清晰可观图像的去模糊技术研究极为重要。近年,基于深度学习的方法大多通过增加网络复杂度来改善去模糊效果,虽然使效果得到了提升,但却增加了算法的运行时间。有时也不可避免的引入了伪影,且可能无法处
无源物联网的标签摆脱了对电源的依赖,具有体积小及成本低的优点,适用于仓储等需要密集部署的行业,通过在货品上附着标签,并与标签通信或对标签定位,可实现对货品远距离的查询和搜寻,提升工作效率,节约人力成本。然而,传统射频识别(Radio Frequency Identification,RFID)标签的通信距离有限,不能适用与大范围的仓储场景,造成这一问题的原因在于:其一,在下行链路上,低功耗限制使得
近年来,高后果区的油气管线安全问题引起了国家的极大重视。目前,我国广泛采用的管线巡检手段以人工巡检为主,智能巡检为辅。由于管线附近施工频繁,各类工程车破坏性大,因此有必要在智能巡检过程中通过固定监控或巡检无人机获取工程车的类别及行为等信息,以进一步提高管线安全。在此背景下,本文设计并实现了一种针对工程车辆的智能识别系统,该系统能够实现施工场景中多种工程车的运动检测、目标检测、目标跟踪与行为识别等功
JavaScript凭借其动态、交互、跨平台等特性,成为嵌入式物联网设备广泛使用的编程语言。为了在物联网设备上解释执行JavaScript程序,各类嵌入式JavaScript引擎被大量开发。然而,由于编程人员水平参差不齐,对JavaScript引擎设计规范理解偏差,导致开发的JavaScript引擎存在安全缺陷、功能缺陷和性能缺陷等问题。安全缺陷会使嵌入式设备面临安全风险,功能缺陷会影响JavaS
基于Wi-Fi信号的无线感知技术具有成本低廉、易于部署、隐私保护性好等优点。其中,手势识别由于其在智能家居和自动驾驶等前沿应用中的广泛需求,逐渐成为物联网领域研究的热点。然而,现有手势识别技术面临跨目标识别精度降低甚至失效的问题,即由于不同用户的身高、体型以及手势习惯等差异,导致利用已训练好的识别模型对新用户进行手势识别时性能大幅下降。针对该问题,本文提出一种基于Wi-Fi和视频相结合的低成本跨目