论文部分内容阅读
人体姿态估计任务是计算机视觉领域中极具挑战性的问题之一,目标是检测出图像数据中人体的关键节点,比如头部、肩膀、臀部,在行人检测、重识别,行为识别、预测,人机交互等领域都有着广泛的应用。在近些年,随着深度学习和深度神经网络的引入,人体姿态估计的算法性能得到飞跃式的提升,其中最主要的原因就在于深度网络结构的不断革新。人体姿态估计网络框架主要分为两个部分:人体结构应用网络和关键点检测网络。本文中通过对人体姿态及估计任务本身特点的理解和分析,设计了新的人体结构应用网络框架和关键点检测网络。同时,本文中还对所提出的关键点检测网络在相似或相关视觉任务上的推广性进行了研究,如图像分类和语义分割任务。本文的主要工作包括:人体结构应用网络中的全局和局部姿态归一化。人体姿态的高自由度衍生出了复杂多样的关键点相对位置关系,对人体结构建模造成了巨大挑战。本文提出了全局和局部的姿态归一化模块,通过从全局再到局部的归一化设计,逐步降低人体姿态的自由度,将多样的人体姿态变换到一个标准姿态附近,使得关键点之间的相对位置分布更加集中,关系更为单一,从而可以通过少量的参数量构建更有效的人体结构模型。高分辨率关键点检测网络。人体姿态估计是一个对空间敏感度很高的任务,关键点检测网络的输出表征需要具有足够高的分辨率(提供精确的位置坐标)。先前的工作中采用从低分辨率表征中恢复高分辨率表征的方式,导致了空间定位精度的损失。本文从保持高分辨率表征的全新角度设计了高分辨率网络:通过保持高分辨率表征保证足够的空间精度,同时并行引入低分辨率表征增强上下文信息的获取。在网络中通过充分的多分辨率表征融合,让不同分辨率的表征相互促进提高,最终输出具备高定位精度及分类性能的高分辨率表征。从而在人体姿态估计任务中达到了更好的检测性能。高分辨率网络的推广性研究。本文探索了为人体姿态估计任务设计的高分辨率网络向其他相关或相似视觉任务中的推广。通过分类任务头部结构的合理设计,本文将高分辨率网络推广到分类任务中,很大程度上解决了高分辨率网络的模型预训练问题,为在其他视觉任务中的训练提供支持。语义分割任务作为同样是像素层次分类问题也受益于减少表征分辨率损失的网络结构设计。本文也设计了相应的分割头部结构,帮助高分辨率网络处理语义分割中的物体尺度多样性问题。与主流网络相比,高分辨率网络具有低模型复杂度和低计算复杂度的特点,并在实验中展现了显著的性能优越性。综上所述,本文主要研究人体姿态估计中的深度网络结构设计,并分别提出了新的人体结构应用网络以及关键点检测网络。通过在目前的公开数据集上与先前的工作进行性能比较,验证了所设计的人体姿态估计网络具有明显的性能提升。