论文部分内容阅读
人体姿态估计的目的是提取人体的关节所在的位置。研究人体姿态估计可以实现对人体进行更加精细的标注,获取人体当前的身体姿势,进行人体行为识别或动作跟踪。当前人体姿态估计系统可以分为单人姿态估计系统和多人姿态估计系统。当采用自上而下方法时,单人姿态估计系统结合人体检测器即可完成多人姿态估计任务。因此研究单人姿态估计算法的改进不仅有利于提高单人姿态估计的识别率,同样有助于提高多人姿态估计的识别率。单人姿态估计系统的核心是一个深度卷积网络,基于多尺度融合的深度网络是当前的主流网络之一。基于多尺度融合的深度网络着重关注如何将网络产生的特征图进行有效的融合。现有多尺度融合网络的尝试包括进行两个尺度或者更多尺度的融合,并取得了不错的成果。但目前的多尺度融合网络在进行尺度融合时,大部分采取的是无差异融合,忽略了不同尺度的差异性。除了多尺度融合模块,目前大部分网络在基础残差模块同样存在对图像通道进行无差异连接的问题,忽略了残差连接的设计的本质是增强深层特征。本文针对现有多尺度融合网络在隐藏层对图像特征利用不完全的问题,对单人姿态估计算法进行了改进,提出了一种基于显著性检测的新型多尺度融合网络。该网络主要有两个特点。第一个特点是设计了一种新型残差结构。该结构采用了显著性检测、边界裁剪和初始化限制的方式,使得新型残差连接始终以增强深层特征为目标。第二个是设计了一种新型多尺度融合结构。该结构同时使用了通道显著性检测和尺度显著性检测,并对二者添加边界裁剪和初始化限制,使得多尺度融合始终以增强当前待处理的尺度为目标。本文在单人数据库和多人数据库上进行了验证,显著模块的训练结果表明显著性通道系数的学习结果符合本文边界裁剪的设计并学习到了比现有残差结构更好的表达。姿态估计结果表明本文提出的新型网络在单人和多人姿态估计任务上在总体指标和大部分指标上优于或等于相关前沿网络。