论文部分内容阅读
近年来,随着机器学习特别是深度学习算法如卷积神经网络(CNN)的发展,处理各种机器学习任务的能力已经大大提高。然而,这些算法取得良好的性能的前提通常是需要大量可用的标注数据。标注大量数据的成本极其昂贵,甚至是不可行的。标注数据的昂贵成本促使我们建立有效的算法在少量或者没有标注数据的情况下能够有效执行,通常利用来自不同但相关的辅助领域的丰富标签数据对目标域的数据进行知识的复用与迁移,进而达到迁移学习的目的。本文针对标注数据不足的问题,利用生成对抗网络中的对抗方法对齐两个领域的分布,解决了在目标域没有标注数据的情况下,利用辅助域大量的标注数据提高目标域的分类任务的性能。在生成对抗网络的基础上,提出了两种对抗迁移学习算法,两个算法总结如下:(1)提出一种基于残差的对抗迁移学习算法(RAN),该算法通过对抗方法对齐两个域的特征并支持分类器自适应,使产生的特征更加具有区分性。首先通过神经网络抽取数据的深层特征,利用对抗方法对两个域的特征进行匹配,之后两个域的特征经过分类器,并用残差模块对两个域的分类器建立关联,实现端到端的特征迁移和分类器自适应,从而使生成的特征更有区分性。实验表明,该方法能够使两个分布更加接近,该方法与传统的对抗学习方法相比较,在分类准确率上能够取得更好的效果。(2)提出了一种基于特征和标签的联合分布对抗迁移学习算法(FLAN)。该模型的判别器同时考虑了特征信息和标签信息,生成特征不仅具有领域不变性而且更加具有类间区分性。该方法首先通过神经网络抽取数据的深层特征,之后目标域的分类器在最小熵约束下生成目标域的伪标签,两个域的特征信息和标签信息经过融合之后利用对抗学习匹配两个域的联合分布,从而能够保证判别器回传给生成器的梯度包含了类别信息,使生成器学习出的特征更加具有区分性,能够提高分类的准确率。实验表明,该方法能够使两个域的分布更加接近,在一些标准的无监督迁移学习训练集上超过了当前表现最好的算法。