论文部分内容阅读
近年来,深度学习在计算机视觉领域取得了前所未有的成功。目前绝大多数的应用都深度依赖于大量的标签数据,这极大限制了深度神经网络的适用性。与主流的神经网络训练方法不同,一个普遍的共识是人脑的学习主要以无监督的方式进行,而监督信息则通过反馈的方式强化神经学习。尽管我们并不完全理解人脑的工作机制,但我们的目的是探索像人脑一样无监督学习的方式,它可以从大量无标签视觉内容中自动提取丰富的抽象特征,提升智能视觉机器的自我学习能力。这种无监督特征与各类视觉任务结合可以提升学习的质量,从另一方面也帮助我们更好的理解人脑和人工智能。本文提出了一种基于视频中目标实例稀疏分解的无监督学习模型,并将此模型应用于目标发现和图像分类任务中。此外,本文还提出了一种无监督对抗学习的可变长图像压缩算法。本文的主要工作与创新总结如下:
1.提出了一种基于视频中目标实例稀疏分解的无监督特征学习模型UnsupV。目前绝大多数的无监督特征表达模型以静态图片作为训练数据,而视频中目标在时间维度上的形态或者空间变化包含了更为丰富的训练信息。另一方面,我们假设大多数的目标实例可以在某个特征空间中稀疏表示,从而可以实现实例到图片级别的重构和多层级的非监督特征学习。本文利用视频作为无监督学习的数据源,使用神经网络学习视频的稀疏性表示,在没有任何标签的情况下模型可以将视频中的目标实例进行稀疏分解,学会区分不同实例并提取实例特征。这种方法从视频中进行学习训练,可以直接对单独的图片进行无监督特征提取。在验证实验中,本文采用了一个相对简单的场景,其中每个图像大致由前景和背景组成。基于编码器-解码器的网络结构分别稀疏表示前景、背景和分割掩码,通过重建原始图像对模型进行端到端的训练。在大规模视频数据集YouTubeObjects的实验结果表明,模型UnsupV可以在完全无监督的情况下将视频帧的前后背景分离,并准确定位和分割前景中感兴趣的目标,验证了模型UnsupV提取高级视觉特征的能力。
2.无监督模型UnsupV强化目标发现和图像分类任务。模型UnsupV应用于目标发现任务中,只需将单一图像一次性送入前馈网络即可快速得到感兴趣目标的分割图,较传统算法缩短了计算时间。在数据集ObjectDiscovery、MSRC和iCoseg的实验结果表明,模型UnsupV在训练数据不可见类别的图像中仍然可以获得高质量的分割图,解决了传统算法对同类目标图像序列的依赖,验证了无监督模型UnsupV的泛化能力和特征表达能力。在图像分类任务中,本文提出了原始图像与分割图融合、特征表示的分类性能和训练标签受限情况的三种方式来评估模型UnsupV对分类任务的强化能力。在Cifar10数据集的实验结果表明模型UnsupV可以辅助分类任务提升分类准确率,减少对标签数据的依赖。
3.提出了一种基于无监督对抗学习的可变长图像压缩算法。目前基于神经网络的压缩算法主要采用固定输入长度和固定输出长度的方式,这导致一些低信息量的图片无法充分压缩,而一些高信息量的图片在解压缩后会出现明显的失真。针对这个问题,本文提出一种只需训练单个网络便可实现自适应可变长编码的压缩算法。首先,算法使用自动编码器和生成对抗网络的融合框架,通过指数加权结合L2损失和对抗损失,使得解压缩图像在像素距离接近原始图像的同时保证视觉感知的语义真实性。其次,提出一种噪音干扰机制实现编码层节点的可控学习,使得网络训练结束后编码层节点按照其特征表达的重要性从上到下依次分布。基于这种重要性分布,当输入测试图像时,网络可以自适应的丢弃相对不重要的节点来满足压缩要求,实现可变长压缩。在数据集UTZappos50K和CelebA-HQ的实验结果表明,提出的算法只需一次性训练单个网络便可实现可变长压缩,并且在极端低比特率的情况下,网络仍能恢复视觉真实的高质量解压缩图,压缩性能高于传统的JPEG和JPEG2000算法。
1.提出了一种基于视频中目标实例稀疏分解的无监督特征学习模型UnsupV。目前绝大多数的无监督特征表达模型以静态图片作为训练数据,而视频中目标在时间维度上的形态或者空间变化包含了更为丰富的训练信息。另一方面,我们假设大多数的目标实例可以在某个特征空间中稀疏表示,从而可以实现实例到图片级别的重构和多层级的非监督特征学习。本文利用视频作为无监督学习的数据源,使用神经网络学习视频的稀疏性表示,在没有任何标签的情况下模型可以将视频中的目标实例进行稀疏分解,学会区分不同实例并提取实例特征。这种方法从视频中进行学习训练,可以直接对单独的图片进行无监督特征提取。在验证实验中,本文采用了一个相对简单的场景,其中每个图像大致由前景和背景组成。基于编码器-解码器的网络结构分别稀疏表示前景、背景和分割掩码,通过重建原始图像对模型进行端到端的训练。在大规模视频数据集YouTubeObjects的实验结果表明,模型UnsupV可以在完全无监督的情况下将视频帧的前后背景分离,并准确定位和分割前景中感兴趣的目标,验证了模型UnsupV提取高级视觉特征的能力。
2.无监督模型UnsupV强化目标发现和图像分类任务。模型UnsupV应用于目标发现任务中,只需将单一图像一次性送入前馈网络即可快速得到感兴趣目标的分割图,较传统算法缩短了计算时间。在数据集ObjectDiscovery、MSRC和iCoseg的实验结果表明,模型UnsupV在训练数据不可见类别的图像中仍然可以获得高质量的分割图,解决了传统算法对同类目标图像序列的依赖,验证了无监督模型UnsupV的泛化能力和特征表达能力。在图像分类任务中,本文提出了原始图像与分割图融合、特征表示的分类性能和训练标签受限情况的三种方式来评估模型UnsupV对分类任务的强化能力。在Cifar10数据集的实验结果表明模型UnsupV可以辅助分类任务提升分类准确率,减少对标签数据的依赖。
3.提出了一种基于无监督对抗学习的可变长图像压缩算法。目前基于神经网络的压缩算法主要采用固定输入长度和固定输出长度的方式,这导致一些低信息量的图片无法充分压缩,而一些高信息量的图片在解压缩后会出现明显的失真。针对这个问题,本文提出一种只需训练单个网络便可实现自适应可变长编码的压缩算法。首先,算法使用自动编码器和生成对抗网络的融合框架,通过指数加权结合L2损失和对抗损失,使得解压缩图像在像素距离接近原始图像的同时保证视觉感知的语义真实性。其次,提出一种噪音干扰机制实现编码层节点的可控学习,使得网络训练结束后编码层节点按照其特征表达的重要性从上到下依次分布。基于这种重要性分布,当输入测试图像时,网络可以自适应的丢弃相对不重要的节点来满足压缩要求,实现可变长压缩。在数据集UTZappos50K和CelebA-HQ的实验结果表明,提出的算法只需一次性训练单个网络便可实现可变长压缩,并且在极端低比特率的情况下,网络仍能恢复视觉真实的高质量解压缩图,压缩性能高于传统的JPEG和JPEG2000算法。