论文部分内容阅读
在机器学习领域,当训练样本稀少时,模型容易发生过拟合现象,训练出的模型泛化能力差,因此不能满足实际需要。在很多现实场景中,获取海量的标注数据往往需要耗费大量的人力、物力、财力等成本。在商业竞争日益激烈的时代,蛮力扩展标注数据是不可取的,因此人们寻找其他的方式解决此问题。知识迁移是流行的解决方案之一。知识迁移旨在利用相关领域的知识来辅助目标领域的建模,从而避免小样本上建模中的过拟合现象。本文在知识迁移的两个方向展开研究,即领域自适应和零样本学习。领域自适应又划分为同质和异质两个方面。研究内容包括:第一,对于同质领域自适应,针对先前文献中分布对齐不充分的问题,本文提出了单源域情形的同源成分分析方法和基于罗格德塔度量的二阶统计对齐方法。对于同源成分分析方法,本文提出了同源的概念,然后提取领域的同源成分并且融入到最大均值差异度量来增强分布对齐的效果,此外,还给出了一种半监督形式的泛化误差分析;对于基于罗格德塔度量的对齐方法,本文在理论上证明了一种伸缩的罗格德塔度量比弗罗贝尼乌斯范数更适合二阶统计对齐,这种版本的度量使得二阶统计对齐更为紧凑,增强了分布对齐的效力。此外,本文借助加权形式的卡克均值将罗格德塔度量扩展至多源域情形,充分利用二阶统计信息有效的解决了多个不同源域的知识联合迁移的问题。第二,对于异质领域自适应,针对单个隐空间知识迁移受限的问题,本文提出了一种基于可迁移的多重子空间发现的异质解耦方法。该方法充分考虑了知识的可迁移性、多样性以及异质性以增强异质知识的正向迁移效果。知识的可迁移性是基于同质领域自适应的分布对齐方案,可以利用最小化最大均值差异度量实现。知识的多样性是基于子空间聚类的技术实现,将不同质的知识分布多样化的分布在多个子空间中。本文提出的高斯-瑞利异质交叉相似度则体现了对知识异质性的尊重,这种相似性度量可以应用到几何结构保持项中以助于挖掘两个域之间的知识相似性。这三方面有机结合,本文解决了之前工作的单隐空间实现知识迁移的欠多样性和异质性考虑不足的弊病。第三,对于零样本学习,本文关注直推式情形。针对零样本学习中的领域漂移问题,本文提出了一种对抗策略的框架并将之实例化为双向投影对抗学习方法,有效的缓和了零样本学习中的领域漂移问题。这是一种基于博弈论的方法,博弈中涉及两个玩家,即投影器和分类器,投影器期望获得具有良好语义保持的投影,而分类器期望获得高的识别准确率,通过不断地对抗,最终实现了领域漂移问题和精准分类之间的纳什均衡。这里,对抗的含义来自于关于投影器的损失函数结构的平行设计以及它们与分类器中的损失函数具有语义相容性。此外,本文也给出了一个对抗策略的泛化误差的解释。