论文部分内容阅读
近些年来,机器学习技术在诸多领域得到了成功的应用。这些成功背后离不开大量训练数据的获取——越来越多的训练数据帮助我们更好地构建复杂的机器学习模型。然而在一些场景下,任务往往只包含少量训练样本或者只针对少量训练样本。越来越多的研究者开始关注这类机器学习任务,即小样本场景下的机器学习。小样本学习相对于传统机器学习问题更加困难,并且由于现实环境具有开放、动态的特性,现实任务中的小样本学习问题往往复杂多样,需要设计相应的算法来自适应地适配环境。综合考虑这些原因,虽然大数据下的机器学习技术已经相对成熟,小样本下的机器学习目前仍处于起步发展阶段。最近一段时间,小样本学习相关问题得到了学术界和工业界研究者们的广泛关注,并逐渐成为一个重要的研究方向。在小样本学习中,为了能适应真实的复杂环境,我们不仅需要分析各种问题中的关键难点,同时还需要根据开放、动态的场景提出自适应的小样本学习技术。本文针对一些具体的小样本学习场景,提出了一系列基于自适应学习技术的小样本学习方法:1.面向小样本分类的任务自适应初始化元学习方法。小样本分类问题是指只通过少量训练样本学习得到有效分类器的问题。在现实应用中,深度学习往往需要大量的训练样本来训练模型,但是考虑到样本的采集代价和标记代价,我们往往只能收集到少量训练样本。直接使用少量样本训练复杂模型,如深度神经网络,十分容易导致模型过拟合。元学习解决过拟合的方式是在以往任务上学习任务层面的归纳偏好。一个好的归纳偏好可以降低模型对于样本的需求量。模型无关元学习算法(Model-Agnostic Meta-Learning,MAML)是一种经典的元学习算法,在MAML中,模型的初始点是需要学习的任务归纳偏好。虽然MAML在很多领域得到应用,但是其存在一个问题——一个公共的初始化很难适用于所有小样本任务。为了解决这个问题,我们提出了任务自适应模型初始化元学习算法。我们的算法通过考虑不同任务的特性,对于不同的任务使用不同的初始化。通过使用任务自适应初始化,我们的算法可以在复杂的小样本场景下达到更好的分类性能。2.面向小样本表征学习的自适应偏移表征学习方法。小样本表征学习研究如何为出现次数很少的ID学得好的表征。小样本ID表征学习是推荐系统中的一个重要问题。为了更好地理解这个问题,我们首先在工业界真实推荐系统上设计了实验并给出了我们的观察。具体而言,我们发现ID表征中编码了频次偏差,即我们可以将小样本ID和大样本ID在表征空间内以很高的准确率分开。我们进一步对这个频次偏差进行了实验分析,结果显示了小样本ID学习不充分,大样本ID表征通常比小样本ID表征具有更大的L2范数。根据我们的实验发现,我们进一步提出了自适应偏移表征学习方法来解决小样本表征问题。自适应偏移表征学习方法将ID表征向兴趣原型偏移,使得不同频次的ID可以共享信息。更重要的是,ID偏移程度基于表征自适应地决定,这使得不同频次的ID可以关注不同的部分,帮助小样本ID学得更好的表征。3.面向小样本多视图异常数据的自适应检测方法。小样本异常检测旨在挖掘数据集中少量的和正常样本表现不一致的异常样本。在多视图数据中,异常样本拥有更加复杂的特性,具体来说,多视图数据中存在两类异常样本:第一类是在不同视图下表现不一致的样本,第二类是表现一致但是在每个视图中都异常的样本。我们针对多视图中异常样本的复杂特性,提出了面向小样本多视图异常数据的自适应检测方法。首先我们利用正常样本在不同视图下具有相似且正常的邻域结构这一特性,提出了一种新的异常程度评价准则。随后我们的算法同时估计这一异常评价准则和正常样本集合。通过放松约束条件,我们给出了算法的两种具体实现。我们的算法不依赖聚类假设,而是通过直接估计正常样本集合来提高检测性能。在算法的每一轮迭代中,算法自适应地降低异常样本的权重,这使得算法对于异常样本更加鲁棒。