论文部分内容阅读
传统机器学习方法只有在训练数据和测试数据满足相同分布时表现出良好的效果。在现实场景中,训练数据往往与测试数据分布不同,从而导致分类准确率降低。
在领域自适应问题中,将训练数据作为源域;而将测试数据作为目标域。其目的是减少源域和目标域之间的分布差异。本文提出两种基于流形子空间学习的领域自适应方法,用流形学习的方法将源域和目标域映射到同一子空间中去。在这个子空间中,源域数据和且标域数据有着相似的分布。本文的主要研究内容如下:
(1)为了衡量源域样本集与目标域样本集之间的分布差异,本文提出一种跨域均值差异(Cross-Domain Mean Discrepancy, CDMD)的度量准则,进而提出一种基于半监督判别分析和跨域均值差异的领域自适应方法(SDA-CDMD)。首先,使用半监督判别分析(SDA)进行数据降维,保证了映射到低维子空间中数据的几何结构信息。然后将SDA与CDMD结合,将两个域投影到同一子空间中,减少两个域之间分布差异的同时保留了原始样本的流形结构。在手写数字图像和计算机视觉数据集上进行的大量实验结果表明,所提算法优于传统的领域自适应方法,验证了其有效性。
(2)提出一种基于有监督局部保留投影和最大均值差异的领域自适应方法(SLPP-MMD)。该方法将有监督保留投影与MMD相结合,将源域和目标域投影到同一子空间中去。在迭代过程中为了避免将错误标注的伪标签目标域样本传播到下一次迭代训练,从而影响子空间的学习过程。本文提出一种新的伪标签样本选择方案和迭代策略。在与JDA算法的对比实验中,本文方法具有更好的收敛性能。同时,算法分类效果优于传统的领域自适应方法。
在领域自适应问题中,将训练数据作为源域;而将测试数据作为目标域。其目的是减少源域和目标域之间的分布差异。本文提出两种基于流形子空间学习的领域自适应方法,用流形学习的方法将源域和目标域映射到同一子空间中去。在这个子空间中,源域数据和且标域数据有着相似的分布。本文的主要研究内容如下:
(1)为了衡量源域样本集与目标域样本集之间的分布差异,本文提出一种跨域均值差异(Cross-Domain Mean Discrepancy, CDMD)的度量准则,进而提出一种基于半监督判别分析和跨域均值差异的领域自适应方法(SDA-CDMD)。首先,使用半监督判别分析(SDA)进行数据降维,保证了映射到低维子空间中数据的几何结构信息。然后将SDA与CDMD结合,将两个域投影到同一子空间中,减少两个域之间分布差异的同时保留了原始样本的流形结构。在手写数字图像和计算机视觉数据集上进行的大量实验结果表明,所提算法优于传统的领域自适应方法,验证了其有效性。
(2)提出一种基于有监督局部保留投影和最大均值差异的领域自适应方法(SLPP-MMD)。该方法将有监督保留投影与MMD相结合,将源域和目标域投影到同一子空间中去。在迭代过程中为了避免将错误标注的伪标签目标域样本传播到下一次迭代训练,从而影响子空间的学习过程。本文提出一种新的伪标签样本选择方案和迭代策略。在与JDA算法的对比实验中,本文方法具有更好的收敛性能。同时,算法分类效果优于传统的领域自适应方法。