论文部分内容阅读
随着深度学习与卷积神经网络的发展,计算机视觉领域的研究范围也得到了扩展,其中很重要的一项包括生成式模型的研究。生成式模型体现了计算机对大量样本数据进行建模的能力。尽管目前已经有不少的生成式模型陆续被提出,但这些模型用于图像生成时,生成图像的质量依然没有达到令人满意的效果,尤其是空间结构比较复杂的图像,例如全身人物图像。针对以上提出的一些问题,本篇论文中提出了两种人物图像生成模型,一种是基于姿势的人物图像生成模型,另一种是基于单张图像的人物姿势变换模型。虽然两种模型在名字上有些差异,其本质都是根据不同的输入条件生成一张人物图像。第一种模型接收一张简单的人体姿势图(2维骨架图)作为输入,输出一张对应姿势的人物图像。该模型采用的是一个条件式生成对抗网络的结构;第二种模型则接收两个条件作为输入,一张目标姿势图和一张真实人物图像,输出对应姿势的真实人物图像,且要保留输入人物图像的外貌信息,这样就实现了人物的姿势转换。该模型是在上一个模型的基础上融合一个变分自动编码器的结构,形成了一个混合式的生成模型,因此,该模型同时拥有生成对抗网络和变分自动编码器的优点。此外,为了提高生成图像的质量,两个模型中都使用了已经训练好的卷积神经网络(VGG19)作为损失函数网络。尤其是在第二个模型中,为了保证输出图像与输入参考图像的身份信息(即各种外貌细节)一致,本篇论文还提出了一个新的损失函数,叫做多尺度风格损失函数。实验结果表明在加入多尺度风格损失后,输出图像的细节得到了丰富,且能够保证输出人物图像与输入人物图像的衣服颜色、纹理特征仍然一致。目前,本篇论文中所有的模型都在DeepFashion数据集上进行训练和评估,并与目前现有的人物图像生成模型做了定性和定量的比较,包括PG~2模型以及Variational U-Net模型。对比结果显示,本篇论文中的模型生成的人物图像细节更丰富,更真实,且与指定的姿势、指定的外表差异更小。当然,本篇论文中的模型也存在一些局限性,例如生成的人物图像仅限于任意的站立姿势,模型无法生成坐立姿势或其他类型姿势的人物图像,以及生成的人物图像缺乏背景,这些问题都需要在未来的工作中逐一解决。