论文部分内容阅读
随着近年来电商行业的高速发展和人们消费方式的升级,图像成为了人们获取服装信息的主要载体之一。因此,借助计算机技术对服装图像进行分析处理成为了服装领域数字化发展的一个重要研究内容。其中图像分割技术可以从图像中分离出服装区域,便于后续操作对服装的分析处理,是服装图像处理方向的基础研究内容之一。目前对图像分割的研究主要集中在深度学习算法方向,尤其是Deep Lab、Mask RCNN及其改进网络等图像分割网络模型。尽管这些深度学习算法相比传统算法有了较大提升,然而它们还存在两点不足:(1)在服装区域重合度上仍然不够理想;(2)对于服装边缘的形变适应能力不强。为了提升服装图像实例分割效果,本文针对以上两点进行优化,提出了一种基于深度学习的服装图像实例分割的新算法。算法实现了对图像中每一个像素点的类别预测,从而分离出复杂图像中的服装单体。新算法通过语义分割网络和目标检测网络的协同作用实现了服装图像的实例分割。此外,本文针对前人提出的深度神经网络结构不足分别进行优化改进,设计得到新的深度神经网络结构。在新的研究创新思路下,本文研究首先进行了总体方案设计,并且完成了数据集的建立,为后续的主要研究内容提供了基础。本文研究工作重点分为两个步骤:服装区域的识别和分割和服装单体的定位与分离。其中第一步是将图像中所有服装所在的区域像素从复杂背景中分离出来;第二步则是从第一步的结果中提取不同的服装单体。一、服装区域像素识别与分割本文通过语义分割网络实现对图像中像素点的分类预测,将图像中的服装区域的像素分离出来,从而实现服装的像素级分割。通过在Deep Lab V3+网络结构上进行改进,对其感受野模块和解码器进行重新设计,得到新的语义分割神经网络结构。通过使用新设计的感受野结构替换了原有Deep Lab V3+网络中的带空洞卷积的空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)结构,并且采用转置卷积替换原有解码器中的插值上采样,将上采样步长调整为2,提高了语义分割网络对服装像素分割效果。改进后的网络在服装图像语义分割中获得了97.26%的像素准确率,93.23%的均值交并比和分割阈值在0.75、0.90和0.95时的平均精度分别为90.56%、71.41%和44.80%,相较于Deep Lab V3+在服装图像分割上获得的分割效果得到了大幅提升。二、服装单体的定位与分离在服装单体的定位与分类上,本文主要通过两个部分的工作进行展开:(1)采用目标检测实现服装单体的定位;(2)通过机器学习对服装之间相邻边界的像素进行分离,实现服装相邻边界的像素级精细分割。第(1)部分在YOLOX和Faster RCNN的基础上从神经网络结构上进行改进,将YOLOX中的空间金字塔结构修改为改进的感受野模块,提高了对服装特征的感知能力,对Faster RCNN网络与分割网络进行了结构合并,通过共用特征提取结构减少了计算冗余。对目标检测网络分别训练测试,在服装图像定位与分类中以0.75为交并比阈值时获得了67.4%的均值精度以及77.1%的平均召回率,使得网络在对服装图像的定位和分类准确率获得提高。第(2)部分在服装定位区域的辅助下提取不同服装单体的交界区域,通过机器学习的方法对交界区域中服装像素进行分类预测,从而实现不同服装单体的分离。本文对交界区域中服装像素进行空间和色彩上的特征构建,并分别采用无监督分类(聚类)和有监督分类(支持向量机、逻辑回归)实现不同服装单体像素分类。通过有监督分类和无监督分类分割效果的对比,基于有监督分类训练的逻辑回归模型在较少的时间消耗下获得了较高的服装分离准确率。通过步骤一中新算法(语义分割网络)和步骤二中新算法(目标检测网络)的协同作用,实现了对服装图像的实例分割。在Deep Fashion2数据集上进行网络的训练与测试,新算法获得了76.83%的像素分类均值交并比,在相同的训练和测试条件下,与Mask RCNN的分割结果(69.79%)相比显著提高。即本文算法分割得到的服装区域与实际区域的重合度更高。通过对不同算法获得的服装分割图进行对比,对于非平滑、突变的服装边缘线,前人算法预测的结果以平滑曲线呈现,拟合度不高;而本文算法依然可以实现对服装区域的像素级分类,对边缘线的处理不依赖插值结果,分割结果和真实边缘线拟合度更高,从而对服装边缘形变的适应性大幅提高。因此,本文提出的服装图像实例分割的新算法,可以实现对图像中不同服装单体的像素级分割,与前人研究相比,新算法有效地提高了服装图像识别区域的重合度和边缘形变的适应性。新算法的实现降低了服装图像研究工作中对图像信息复杂度限制,为复杂背景和姿态下的服装图像处理工作奠定了一定的基础。