基于自适应学习技术的小样本分类、表征和检测

来源 :南京大学 | 被引量 : 0次 | 上传用户:liongliong541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,机器学习技术在诸多领域得到了成功的应用。这些成功背后离不开大量训练数据的获取——越来越多的训练数据帮助我们更好地构建复杂的机器学习模型。然而在一些场景下,任务往往只包含少量训练样本或者只针对少量训练样本。越来越多的研究者开始关注这类机器学习任务,即小样本场景下的机器学习。小样本学习相对于传统机器学习问题更加困难,并且由于现实环境具有开放、动态的特性,现实任务中的小样本学习问题往往复杂多样,需要设计相应的算法来自适应地适配环境。综合考虑这些原因,虽然大数据下的机器学习技术已经相对成熟,小样本下的机器学习目前仍处于起步发展阶段。最近一段时间,小样本学习相关问题得到了学术界和工业界研究者们的广泛关注,并逐渐成为一个重要的研究方向。在小样本学习中,为了能适应真实的复杂环境,我们不仅需要分析各种问题中的关键难点,同时还需要根据开放、动态的场景提出自适应的小样本学习技术。本文针对一些具体的小样本学习场景,提出了一系列基于自适应学习技术的小样本学习方法:1.面向小样本分类的任务自适应初始化元学习方法。小样本分类问题是指只通过少量训练样本学习得到有效分类器的问题。在现实应用中,深度学习往往需要大量的训练样本来训练模型,但是考虑到样本的采集代价和标记代价,我们往往只能收集到少量训练样本。直接使用少量样本训练复杂模型,如深度神经网络,十分容易导致模型过拟合。元学习解决过拟合的方式是在以往任务上学习任务层面的归纳偏好。一个好的归纳偏好可以降低模型对于样本的需求量。模型无关元学习算法(Model-Agnostic Meta-Learning,MAML)是一种经典的元学习算法,在MAML中,模型的初始点是需要学习的任务归纳偏好。虽然MAML在很多领域得到应用,但是其存在一个问题——一个公共的初始化很难适用于所有小样本任务。为了解决这个问题,我们提出了任务自适应模型初始化元学习算法。我们的算法通过考虑不同任务的特性,对于不同的任务使用不同的初始化。通过使用任务自适应初始化,我们的算法可以在复杂的小样本场景下达到更好的分类性能。2.面向小样本表征学习的自适应偏移表征学习方法。小样本表征学习研究如何为出现次数很少的ID学得好的表征。小样本ID表征学习是推荐系统中的一个重要问题。为了更好地理解这个问题,我们首先在工业界真实推荐系统上设计了实验并给出了我们的观察。具体而言,我们发现ID表征中编码了频次偏差,即我们可以将小样本ID和大样本ID在表征空间内以很高的准确率分开。我们进一步对这个频次偏差进行了实验分析,结果显示了小样本ID学习不充分,大样本ID表征通常比小样本ID表征具有更大的L2范数。根据我们的实验发现,我们进一步提出了自适应偏移表征学习方法来解决小样本表征问题。自适应偏移表征学习方法将ID表征向兴趣原型偏移,使得不同频次的ID可以共享信息。更重要的是,ID偏移程度基于表征自适应地决定,这使得不同频次的ID可以关注不同的部分,帮助小样本ID学得更好的表征。3.面向小样本多视图异常数据的自适应检测方法。小样本异常检测旨在挖掘数据集中少量的和正常样本表现不一致的异常样本。在多视图数据中,异常样本拥有更加复杂的特性,具体来说,多视图数据中存在两类异常样本:第一类是在不同视图下表现不一致的样本,第二类是表现一致但是在每个视图中都异常的样本。我们针对多视图中异常样本的复杂特性,提出了面向小样本多视图异常数据的自适应检测方法。首先我们利用正常样本在不同视图下具有相似且正常的邻域结构这一特性,提出了一种新的异常程度评价准则。随后我们的算法同时估计这一异常评价准则和正常样本集合。通过放松约束条件,我们给出了算法的两种具体实现。我们的算法不依赖聚类假设,而是通过直接估计正常样本集合来提高检测性能。在算法的每一轮迭代中,算法自适应地降低异常样本的权重,这使得算法对于异常样本更加鲁棒。
其他文献
经济的快速发展带动餐饮行业蒸蒸日上,餐饮行业内的竞争愈演愈烈,想要提高连锁餐饮企业的市场竞争力就必须控制好成本,成本对餐饮业发展起着至关重要的作用。战略成本管理是战略思想在成本管理的具体应用,是为了获得和保持企业持久竞争优势而进行的成本分析与管理,战略成本管理比传统的成本管理具有长期性、前瞻性、战略性等特点,是以长期的目标为规划原则,考虑了竞争环境中的横向对比,综合了更为全面的影响因素,更有利于长
聚类问题是计算机科学和运筹学领域中的经典问题,具有广泛的实际应用背景.本论文通过设计近似算法,对球面k-平均问题,设施选址问题和关联聚类问题三种聚类问题的变形进行研究
【目的】1.比较Ph+ALL、Ph+MPAL和Ph+AML这三类具有相同遗传学背景但免疫表型截然不同的三组疾病临床和实验室特征的异同点和治疗疗效,以及酪氨酸激酶抑制剂(TKIs)和异基因造
合唱作为一种集体的、多声部演唱的表演艺术,是通过分工、协作、集体合作来展示作品内涵的。合唱对提高人的音乐素质至关重要,因此合唱教学的普及和推广需要格外重视。笔者在《义务教育音乐课程标准(2011)》指导下,结合音乐学科中合唱教学的特点、初中生年龄段的心理特征,以锦州市凌河区的三所初级中学作为研究对象,进行实地调查,通过文献研究法、访谈法等研究方法来揭示在中小城市的初中合唱教学中普遍存在的一系列问题
习近平幸福观的提出立足于我国现实需要。近年来,我国民众对于幸福的呼声日益高涨。仅在2017年12月至2018年3月这三个月中,习近平总书记就在三个重要场合都提及了与幸福主题相关的言论,足以见得幸福在当今社会的重要性。现如今不平衡、不充分的发展使人们的物质满足与精神需求之间出现断层。民众的基本生活得到保障后越来越重视内心富足和精神慰藉,渴望感受到更高层次的幸福。人民群众有需求,党和国家就有行动。习近
张安治是我国近现代著名国画家、美术理论家、美术教育家。他自小奠定了扎实的国学与传统写意绘画基础,大学时师从徐悲鸿先生学习西式绘画技法,还具备深厚的美术史、论研究能力,是一名罕见的“全能型”通才。毕业时恰逢国难,毅然接受恩师徐悲鸿先生的召唤来到桂林投身抗战美术宣传教育工作,为改善广西落后的文化艺术状况与广西本土力量合作开设“艺师班”培养艺术人才。张安治以桂林文艺界美术方面主要负责人与组织者的身份经历
挥发性有机物(Volatile organic compounds,简称为VOCs)在造成大气污染的同时也严重威胁人们的生活和身体健康。催化氧化法是消除VOCs的有效手段之一,其关键是研发具有高活性和
为了解大学生体育锻炼健康行为过程取向的状况,寻找影响大学生体育锻炼健康行为过程取向的因素,为学校相关组织对学生体育锻炼健康行为过程取向的不同人群提供干预策略。本文采用文献资料法、问卷调查法、访谈法、数理统计法,以健康行为过程取向理论及相应的调查量表为测量工具,对福州大学城部分在校大学生体育锻炼的健康行为过程取向进行调查,结果表明:大学生参与体育运动时,锻炼强度为轻微运动人数占总人数的43.95%;
Cas14a1是迄今为止发现的CRISPR/Cas系统中最小的一种由g RNA引导的核酸内切酶,是目前CRISPR/Cas系统中发现的比较新的Cas酶,并且已经有研究者开展了其研究工作。与其他Cas酶相比,Cas14a1具有蛋白分子量小、组成简单、发挥切割作用后其附属活性即可被激活等优点,有望成为一种最有效、应用最广泛的基因编辑和病原微生物检测的工具。本论文主要对Cas14a1相关重组酶的设计、构
毛泽东领导中国人民彻底改变了落后的社会面貌,实现了中国历史上最伟大最深刻的社会变革,打开了中华民族伟大复兴之门。毛泽东一生能够取得如此伟大成就,与他科学务实、重视青年的人才培养观是紧密联系的,这一方面早在他青年时期就已经逐渐形成。文章共分为五个部分来论述有关青年毛泽东人才观对新时代青年成长成才的启迪及意义:第一部分是绪论,介绍选题的目的意义、国内外研究情况等方面;第二部分分析了青年毛泽东人才观形成