【摘 要】
:
传统监督学习模型性能的提升依赖大量标记数据,然而在许多现实任务中,数据的标记往往需要耗费标注人员大量时间和精力。因此如何利用更少的数据训练有效模型是十分重要的研究问题。主动学习是解决这一问题的有效手段,具体地,它通过迭代地从未标记数据中主动挑选最有价值的样本向专家查询标记信息,并将其加入训练集中学习,从而快速有效地提升模型性能。对于多标记学习任务来说,每个样本同时具有多个语义标记,标注代价更大,因
论文部分内容阅读
传统监督学习模型性能的提升依赖大量标记数据,然而在许多现实任务中,数据的标记往往需要耗费标注人员大量时间和精力。因此如何利用更少的数据训练有效模型是十分重要的研究问题。主动学习是解决这一问题的有效手段,具体地,它通过迭代地从未标记数据中主动挑选最有价值的样本向专家查询标记信息,并将其加入训练集中学习,从而快速有效地提升模型性能。对于多标记学习任务来说,每个样本同时具有多个语义标记,标注代价更大,因而主动学习带来的收益也更大。在一些多标记学习任务中,标记集合可以显式地组织成树形结构,标记粒度随着层次的加深而变得更加精细,同时其信息量更大,标注难度也随之增大。以往的主动学习算法只考虑标记自身信息量,而忽略层次结构中标记间的信息量影响关系,并且通过降低标注数量来降低标注成本,造成标注数量低而实际的标注代价却没有降低的问题。本文针对层次化标记结构的多标记主动学习问题展开了研究,并考虑不同标记的标注代价差异,取得了如下成果:1.提出一种标记层次化结构下的多标记主动学习算法HALC。该算法首先提出一种新的信息量衡量方式,考虑了标记层次结构中,祖先节点和后代节点的信息量带来的潜在收益;其次,采用基于双目标优化以及基于背包问题两种不同的策略平衡标注代价和信息量的冲突问题。实验证实HALC方法能有效降低标注代价,并显著提升模型性能。2.提出一种自适应利用标记相互关系的多标记主动学习算法ALCAL。该算法不需要制定启发式的信息量衡量方式,而是通过学习标记间的相互影响关系得到新的信息量衡量。为了平衡信息量和标注代价的冲突关系,将信息量学习和主动查询策略整合到统一框架中进行优化。实验证实ALCAL有效学习层次化结构中标记间的相互关系,并降低标注代价。
其他文献
推进教育均衡发展是新时代我国教育改革的主旋律,教育均衡是区域发展的主要影响因素。校长轮岗是政策与体制相融合发展的具体产物,分析校长轮岗并强化校长轮岗制发展,促使校
宰我是孔子门下四科“十哲”之一。为言语科之首,其便辞巧说在《论语》及其他文献中多有体现,喜提出问题并对此与孔子进行辩论,故颇受教责。文献所载之宰我生平扑朔迷离,尤其
人类对于外部世界的认识通常是基于多种感知的综合响应,例如视觉、听觉、触觉等等。多模态数据是同一事物在不同形式下的展现结果,通过融合这些数据可以更加深入的了解事物的本质结构。在多模态融合中,传统的模型通常会忽略分析样本重要性对于模态融合的影响。在本文中,引入自步学习模型来改善这一问题。自步学习模型与人类教育过程类似,将样本按易学到难学进行排序然后逐步进行训练。本文的研究内容是基于自步学习的多模态融合
图像分类是计算机视觉的基础问题。随着人工智能和计算机视觉的蓬勃发展,越来越多的高校和企业投入了大量精力到图像分类研究中。顾名思义,图像分类是利用图像处理和人工智能的方法提取图像特征,然后确定图像的类别。传统的图像分类算法首先提取图像的颜色特征、纹理特征、形状特征、空间关系特征,然后训练一个分类器来对图像进行分类。传统图像分类算法的分类精度受到特征的典型性和区分性的限制。本文使用特征编码和多层空间特
随着硬件技术的快速发展,智能移动设备的计算性能越来越强大,功能越来越丰富,因此在人们日常生活中扮演着越来越重要的角色。这类设备由于其移动性,可以支持用户使用多种握持方式进行交互。触控手势是用户与智能移动设备交互的重要方式,因此一直是国内外学者关注的研究热点。本文以移动设备上的触控手势交互为研究对象,针对用户使用智能移动设备时多握持方式下开展研究,具体工作包括以下三个方面:第一,针对单手握持方式下的
《当中国统治世界》一书是英国学者马丁·雅克关于中国问题思考的结晶。本书的核心价值在于摒弃西方学界一以贯之的“中国威胁论”和“中国崩溃论”论调,从新的文化视角重新解读中国问题。对此,国内外学者关于该书表达的观点存有分歧。其中,国外学者主要围绕“中国统治论”展开深入讨论,国内学者则更倾向于中国特色的积极评价。笔者认为,作品是作者思想的表达,对一本书的探讨不仅仅要关注著作内容,也需要关注写作该书的作者,
近年来,各种互联网业务快速增长,网络结构越来越复杂,网络带宽的需求以摩尔定律的速度急速增长。各种互联网新兴业务对带宽和频谱资源的分配和管理需求越来越灵活,传统的WDM光网络难以满足这一要求,而能根据业务进行频谱资源灵活分配的灵活栅格光网络应运而生,是未来光传送网中的重要发展方向。灵活运用底层光网资源的另一种方法是客户网络的虚拟化运行。网络虚拟化的核心技术之一是如何抽象底层物理资源,并进行网络资源的
从恺撒被刺身亡(公元前44年3月)到安东尼被正式宣布为人民公敌(公元前43年4月)是塑造恺撒形象的关键时期。通过考察这一时期内罗马城中的舆论,可以发现,它们对恺撒形象的塑造
给定一个无向图,寻找一个顶点子集,使得子集中的任意两个顶点都相邻,这样的顶点子集称作团。最大团问题是指寻找一个基数最大的团,该问题是一个著名的组合优化问题,也是一类N
目的:本文旨在为青少年足球俱乐部和足球特色学校校队的实践训练和指导提供科学的足球专项有氧耐力训练方法,设计两种组间间歇时间不同的小场地比赛训练,以探讨其对青少年运