论文部分内容阅读
基于图像的人体骨架提取是对人体姿态估计的基础,过程主要分两部分:首先根据图像中的人体纹理颜色及轮廓等信息来提取人体各个关节点,然后对关节点进行链接构成人体骨架。照明环境、衣着姿态等因素的不确定性都会导致最后的预测精度下降,因此目前大多数方法使用多尺度多感受野的图像表征来进行网络训练,以提高网络对关节点的检测精度。但是在丰富有效信息表征的同时,与目标任务无关的信息也相应增多,成为提高网络性能的瓶颈。同时,简单的特征融合方式未能充分考虑不同尺度特征之间的全局关联,无法对丰富的特征进行有效的融合。针对以上问题,本文利用注意力机制具有能够捕获全局依赖且能关注图像重点区域的特点,将多尺度特征和注意力机制相结合应用于人体骨架提取,开展了以下研究工作:1.剖析了级联金字塔(CPN)的网络结构,研究了注意力机制的原理和思想,提出了一种改进的基于注意力机制的多尺度金字塔网络(AMSPN)。在分析网络深度与有效感受野之间关系的基础上,AMSPN新增了尺度分支,进一步丰富了多尺度信息。设计了层次注意力特征增强模块(HAFEM),基于层次注意力对与任务有关信息进行增强,而对无关信息进行抑制,突破了CPN的性能瓶颈。2.为了更有效的利用不同尺度的信息,设计了多尺度均衡模块(MSB)对不同尺度的特征进行进行均衡,多尺度均衡模块能随着网络的训练动态的更新对不同尺度特征的注意力分配,从而使得对于特定关节点检测,能更有效的利用不同尺度的特征。将多尺度均衡与难点挖掘机制相结合,进一步提升对多尺度信息的利用率和难检测关节点提取的精度。3.针对现有特征融合方法未能充分考虑不同尺度特征之间的全局关联的问题,引入自注意力思想,提出了基于区域相似性的多尺度特征融合方法(RSMFF)。卷积神经网络本身感受野受限,而自注意力机制能够轻松捕获全局依赖。RSMFF结合自注意力机制,利用全局区域之间的相似性进行多尺度特征融合,使得融合后的特征具有更丰富的图像信息表达能力,能够更有效的协助网络进行骨架提取。通过在MPII和COCO数据集上进行消融实验和对比分析,验证了以上方法的有效性。