论文部分内容阅读
随着人工智能在服装业的快速发展,虚拟试衣、时装展示和虚拟现实等技术得到了广泛应用,线上购买服装逐渐成为一种趋势,在网购时,在线用户一般希望可以查看时装模特不同姿态的多张照片。为了满足用户的需求,可以利用服装图像合成技术来增强用户的购物体验,同时也能降低商家成本。传统基于特征表达的图像合成只能处理简单规则的图片,特征表达能力受到限制,难以处理复杂分布的图像合成,随着深度学习的快速发展,生成对抗网络被广泛应用在图像合成的领域,但是传统的生成对抗网络存在着生成图像模糊,训练不稳定等弊端。基于以上问题,本文引入注意力机制,结合生成对抗网络搭建服装图像合成系统,主要工作如下:(1)为了解决基于传统卷积神经网络的人体姿态估计所带来的细节信息丢失问题,本文提出了用于人体姿态估计的注意力沙漏网络。传统的方法采用坐标回归的方式提取二维人体关节点,但是随着网络的加深,人体关节点的信息会慢慢丢失,为了克服信息丢失导致预测关节点精度降低的问题,本文在传统的卷积神经网络中引入了一种基于注意力机制的特征提取模块,该模块由深度可分离卷积单元和通道注意力机制单元组成,替换了传统沙漏网络中的残差模块,使用深度可分离卷积代替常规卷积,极大减少了模型训练参数和计算复杂度,在训练注意力沙漏网络时,添加特征匹配损失函数,解决了梯度消失的问题。(2)为了解决在服装图像中的人体和服装边缘信息提取丢失问题,本文提出了一种基于注意力机制的语义生成网络。虽然传统的Bicycle GAN网络通过多尺度的方式进行特征融合,但边缘信息仍不能有效提取出来,为了更好地捕获像素级语义信息,本文在语义生成网络的最后一层添加注意力机制,对网络最后一层特征图的通道上添加Softmax回归,将更多的注意力放到人体和服装的边缘,充分提取语义信息。(3)提出了一种新型的服装图像合成框架。传统生成对抗网络不仅很难生成高分辨率图像,而且生成的服装图像中缺乏真实纹理信息,基于此本文提出了一种使用Pix2pix HD网络模型的纹理生成器,通过多尺度生成器和鉴别器训练网络,获取全局的视野,能够使纹理生成器生成全局一致的图像,同时多尺度判别器能使得纹理生成器产生更精细的纹理细节,进而生成高分辨率、较为逼真的服装图像。本文研究在MPII数据集、Deep Fashion数据集、Market-1501数据集上进行了对比实验和结果分析,与其它主流方法相比,本文所提出的方法预测关节点准确度更高,在图像合成质量以及定量评估指标上有了明显提升。