论文部分内容阅读
单目图像的三维人体姿态估计是计算机视觉领域中的热点问题,具有非常广泛的应用前景。由于从单目图像推理三维空间信息本身是一个病态问题,且姿态图像存在着遮挡和视点差异,使其非常具有挑战性。本文分两阶段进行单目图像的三维人体姿态估计,首先从单目图像中估计二维人体姿态,进而根据二维姿态估计结果推理出三维人体姿态。本文还将单目图像的三维人体姿态估计与基于内容的图像检索相结合,提出视点无关的人体姿态图像检索框架。本文的主要贡献如下:
(1)二维人体姿态估计的深度学习网络的选型。为了更准确地估计单目图像中的二维人体姿态,本文从理论和实验两方面对比分析了单目图像二维人体姿态估计的两种主流的深度网络模型CPM(Convolutional Pose Machines)和Hourglass堆叠模型。由于Hourglass堆叠模型能更好地处理图像中的人体自遮挡问题,因此本文选用Hourglass堆叠模型来估计二维姿态。
(2)针对基于样例的三维姿态估计方法依赖于姿态样例库规模的问题,本文提出一种基于样例增强的三维人体姿态估计方法,旨在通过匹配和合成策略隐式地实现样例库的自我扩充,增强姿态样例库的多样性。该算法首先进行全身、半身姿态匹配,利用半身匹配姿态样例合成虚拟候选姿态样例。然后从含有虚拟姿态样例的候选姿态样例集中选择出与二维姿态估计结果最佳匹配的姿态样例。本文在Human3.6M数据库中进行了多方位的实验对比与分析。实验证明本文算法可以得到较好的估计结果,尤其是一些复杂姿态类别如“坐下”。
(3)针对目前人体姿态图像检索结果受视点影响的问题,本文提出一种视点无关的人体姿态图像检索框架。该框架的核心思想是利用单目图像的三维人体姿态估计结果来提取视点无关的人体姿态特征,并在此基础上度量人体姿态图像间的相似度。在多视点人体运动库IXMAS中的实验结果证明,本文框架可以返回不同拍摄视点的相似姿态图像,提高姿态图像检索的性能。
(1)二维人体姿态估计的深度学习网络的选型。为了更准确地估计单目图像中的二维人体姿态,本文从理论和实验两方面对比分析了单目图像二维人体姿态估计的两种主流的深度网络模型CPM(Convolutional Pose Machines)和Hourglass堆叠模型。由于Hourglass堆叠模型能更好地处理图像中的人体自遮挡问题,因此本文选用Hourglass堆叠模型来估计二维姿态。
(2)针对基于样例的三维姿态估计方法依赖于姿态样例库规模的问题,本文提出一种基于样例增强的三维人体姿态估计方法,旨在通过匹配和合成策略隐式地实现样例库的自我扩充,增强姿态样例库的多样性。该算法首先进行全身、半身姿态匹配,利用半身匹配姿态样例合成虚拟候选姿态样例。然后从含有虚拟姿态样例的候选姿态样例集中选择出与二维姿态估计结果最佳匹配的姿态样例。本文在Human3.6M数据库中进行了多方位的实验对比与分析。实验证明本文算法可以得到较好的估计结果,尤其是一些复杂姿态类别如“坐下”。
(3)针对目前人体姿态图像检索结果受视点影响的问题,本文提出一种视点无关的人体姿态图像检索框架。该框架的核心思想是利用单目图像的三维人体姿态估计结果来提取视点无关的人体姿态特征,并在此基础上度量人体姿态图像间的相似度。在多视点人体运动库IXMAS中的实验结果证明,本文框架可以返回不同拍摄视点的相似姿态图像,提高姿态图像检索的性能。