论文部分内容阅读
传统的机器学习算法通常假设源域和目标域数据服从同一个分布,然而,在实际应用中,源域和目标域数据往往服从不同的分布。采用传统方法训练模型时,每当目标域的分布发生了变化,就需要重新收集训练数据及其标签。为了减少数据浪费,迁移学习允许源域和目标域的数据分布存在差异。本文关注迁移学习中最具挑战性的无监督域适应(Unsupervised Domain Adaptation)问题,该场景中源域有标签,而目标域无标签。为解决该问题,一般思路是,最小化不同域数据分布之间的差异,以期提高分类器在目标域上的泛化性能。稀疏编码和子空间学习作为提取低维特征的常用方法,已经成为了处理域适应问题的重要选择。但是基于以上两种策略的现有算法仍然存在许多不足。本文的工作主要分为2部分:1、提出了基于有监督组稀疏编码的判别域适应模型(Discriminative Domain Adaptation,DDA)。在无监督域适应场景中,源域是有标签的。然而,传统的稀疏编码是无监督学习模型,忽略了源域的标签信息。针对这个问题,本文提出了DDA算法。DDA假设在某个共同的子空间中,目标域数据可以由源域数据稀疏表达。DDA通过联合有监督的?2,1稀疏编码和判别的正则化项,学习到具有判别性质的跨域隐子空间。实验表明,以上两种策略都能有效减少不同域分布的不匹配性,增强模型的知识迁移能力,从而提升学习任务的效果。2、提出了联合图嵌入的判别域适应模型(Joint Graph Embedding Discrimina-tive Domain Adaptation,JGDDA)。图嵌入,是一种流形学习的降维框架,它通过图拉普拉斯正则来寻找能够保持原始数据内在几何结构的低维投影。在第一个点的基础上,JGDDA首先加入了图嵌入技巧来得到更有效的子空间。然后,JGDDA对核空间的投影进行了?2,1的稀疏约束。具有行稀疏性质的投影矩阵等价于重新加权核空间中的数据,过滤掉不相关的数据,使得模型更加鲁棒。求解模型时,先将图拉普拉斯的解嵌入到原目标函数中,这样在迭代过程中无需进行特征值分解;之后,采用了增广拉格朗日法(Augmented Lagrangian Method,ALM)求解模型。实验展示了JGDDA在两个真实数据库上的有效性,验证了图正则和重加权策略均能有效增强模型的迁移能力。