论文部分内容阅读
对人体进行姿态识别并在此基础上实现人物动画生成,是计算机图形学领域的重要研究内容,其首先以图像作为输入,提取其中的人体姿态,并转化为抽象的姿态数据结构,随后以转化得到的数据集为基础,在运行时根据输入产生需要的人物动画。在较低成本的设备上实现该目标的传统算法在精度上不尽人意,因此随着深度学习技术的发展,越来越多的研究者开始尝试使用深度神经网络实现这一任务,然而该任务依然面临精确度和速度等方面的挑战。本文以深度学习实现姿态识别和人物动画生成为研究课题,并着重研究了如何构筑合理的神经网络结构以达成高性能、高准确度的目标,并进一步阐述了如何在对运行速度要求较高的动画生成部分进行特定性加速。本文的主要创新体现在针对2D和3D姿态提取任务设计的2个全新的神经网络结构,以及对应的面向GPU的加速方案。并通过和相关工作的比较,证实了本文所述设计的实际效果。本文的主要工作如下:1.基于深度卷积神经网络实现的实时2D姿态识别系统。该系统能够对输入图像中的多人的姿态进行识别,并输出2D的标记点。整个系统能够在384的分辨率下在主流GPU上达到实时的运行速度2.进一步地,在2D姿态识别系统的设计思想基础上,进一步设计了基于单目的3D姿态估计系统。从而挑战了单目3D姿态估计极为困难的传统观念。并也能在384的分辨率下,达到实时的运行速度。3.在3D姿态估计获得的3D姿态数据基础上,利用神经网络进行人物的动画生成。为了达到实时的运行速度,通过对网络结构、硬件体系结构的分析,在原本针对CPU的工作基础上实现了GPU上网络结构的针对性加速。进一步地,我们将上述系统在姿态识别数据集和不同级别的硬件上对该系统进行了测试,其中2D姿态检测系统能够在主流消费级硬件上达到60 fps以上的速度,3D姿态估计系统能够达到24 fps以上的速度,且平均误差仅为110 mm,实时动画生成系统能够达到30 fps以上的速度。实验结果表明,本文所述的基于深度学习的姿态识别和动画生成系统达到了设定的速度和精度目标,证明了深度学习技术在计算机图形学领域的巨大潜力。