论文部分内容阅读
人体姿态估计是理解图像和视频中人的行为的重要步骤之一,在高级的人机交互系统、智能安防、国家文化艺术保护和传承等领域有广阔的应用前景。因此,人体姿态估计的研究是非常具有价值,因为其任务的特殊性也使它成为计算机视觉领域里面的热点与难点问题之一。本文在现有的基于深度学习方法的人体姿态估计做了详细的分析,总体说出两点不足:首先,虽然在人体姿态估计精度小有进步,但是随着该精度的提升其模型的复杂度也变高,且模型参数的数量过多,训练困难等问题在现有的基于深度学习的人体姿态估计模型上都存在;其次,人体姿态估计是人体行为重要步骤之一,人体关节点坐标被精准识别对人体为行为任务出色完成是至关重要的,因此,为了进一步提高网络的精确度,本文采用GAN生成数据样本的方法,对已有公开的两个数据集进行扩增。针对上述两个问题进行改进,本论文的具体内容将分两部分来进行介绍: 首先,针对现有模型的第一个问题,本文首次引进ResNeXt作为沙漏网络的基本模块,即在预激活ResNet的先BN-ReLU再卷积层的思想上,提出了改进的ResNeXt网络模型,设计出了以改进的ResNeXt模型作为分-合沙漏网络的基本组成单元,目的是压缩沙漏网络,减少冗余的参数,并且提高该部分对于局部特征提取的能力,从而设计出基于ResNeXt模块作为构建分-合沙漏网络用于人体姿态估计,以捕捉姿态模型中身体关节之间的多尺度相互依赖性。该模型是在人体姿态估计公开的数据集MPII上评估所提出的方法,本文设计的网络模型的参数量比原来降低了14.5×106,并且精度提高了1.3%。 其次,针对人体姿态估计精确度在人体行为任务中的重要性,利用GAN生成数据的优势,对已有的数据集进行扩增,该方法目的是进一步提高网络的精确度。首先,以本文改进的ResNeXt网络模型为基本组成模块设计出生成器网络(ADG),一起训练分-合沙漏网络,进一步提高人体姿态估计的精确度。对抗数据生成网络不是直接生成图片,而是将缩放和旋转转化成窄带高斯分布,然后再根据损失函数的值来采样符合训练的窄带高斯,再将采样的窄带高斯的分布转化成图片加入到训练集中参加训练;其次,生成器网络(ADG)的输入是以本文设计的分-合沙漏网络的第一个沙漏的从上到下部分输出的特征图作为输入,目的是减少网络在转化过程中因坐标值的改变降低网络的训练准确度;最后,再将该网络与本文设计的分-合沙漏网络相连接动态的产生增强数据形式。该方法在人体姿态估计两个公开且常用的LSP和MPII数据集上进行了评估,验证了动态生成数据网络有助于提高ADG-S-AHG网络的精度,证明了动态的生成预处理数据分布的方法有效性和先进性。