弱监督多标记学习算法关键技术研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lyfqxx3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多标记学习任务中,每个实例通常被同时标注有多个候选标记。通常情况下,这些标注的候选标记都是真实且完备的,因此,传统的多标记学习算法可以直接从这种理想标注的数据中学习分类器,并将其用于未知实例的标记预测。然而,在现实任务中,这种被精准标注的多标记数据是很难获得的,特别是针对于大规模数据,实现大量实例的精准标注是非常耗时耗力的。因此,从互联网上直接下载带有语义标记数据成为一种比较简单的收集大规模训练数据的方式。然而,这些下载的数据集的标注信息往往是带有噪声的(无标记、缺乏细粒度标记、标记缺失、冗余或错误),如果直接使用这些带有噪声信息的数据进行模型训练,会导致模型出现偏置。在此背景下,弱监督多标记学习(Weakly Supervised Multi-Label Learning)逐步成为机器学习和计算机视觉领域的研究热点。弱监督多标记学习是一种针对不精细或不完备监督信息的多标记学习问题统称。通常来说,弱监督可以分为三种情况:第一种是不完备监督,即只有少部分实例带有标记信息,而大量实例是未标记的;第二种是不精细监督,即训练实例只有粗粒度标注信息,而缺乏细粒度标注信息;第三种是不精准监督,即训练实例标注信息存在缺失、冗余或者错误的情况。在本文中,我们聚焦标注信息存在冗余的情形,重点研究该情形下的两种弱监督学习问题:偏标记学习和偏多标记学习。在偏标记学习任务中,每个实例关联的候选标记集合中,有且只有一个标记是真实的。在偏多标记学习任务中,实例关联的候选标记中有多个标记是有效标记。基于此,我们对两种学习问题进行了深入研究,并提出六种创新性算法:1.基于自步课程学习的偏标记学习算法。该算法模拟人类“由易至难”的学习模式,通过引入课程学习和自步学习机制,将训练数据进行难易程度划分,实现训练数据“由易至难”参与模型训练,进而引导模型由“稚弱”逐步转向“成熟”。算法学习过程中,课程学习机制模拟人类教师提前规划课程修学顺序,通过预定义先验知识调整训练数据的难易程度顺序;自步学习机制模拟人类学生自主学习方式,通过自主学习结果动态调整后续学习任务。这两种机制的有机结合形成“师生协作式”学习模式,不仅能够自由地使用先验课程知识指导模型学习,还可以避免先验课程与模型自我学习不一致的情况并进行动态调整,进而使得算法达到最佳学习状态。我们进行了大量的对比实验和消融实验,实验结果证明这种“师生协作式”学习策略,能够有效提升偏标记算法学习性能。2.基于图匹配机制的偏标记学习算法。该算法将偏标记学习中实例与标记的对应关系解释为“实例-标记”匹配,并首次将偏标记学习任务转化为“实例-标记”匹配选择问题。算法通过利用图匹配模型,充分挖掘实例的相似性信息、差异性信息以及“实例-标记”匹配一致性信息,来引导模型实现精准“实例-标记”选择。算法构建过程中,由于传统的“一对一”图匹配算法不能满足偏标记学习问题中多个实例可能对应同一标记的场景,因此我们将传统的“一对一”概率匹配算法扩展到“多对一”约束,使其适应偏标记学习问题的应用场景。此外,我们还提出了一种“实例-标记”匹配预测模型,通过加权近邻重构为未知实例指派候选标记,之后使用图匹配策略来获取真实“实例-标记”匹配。我们进行大量的对比实验,实验结果表明,我们的算法具有更强的消歧能力。3.基于深度图匹配的偏标记学习算法。该算法克服了传统图匹配偏标记学习算法的两大缺点:一是,在度量实例和标记关系时,通常将“示例-标记”关系作为固定的先验知识纳入学习框架,而不是通过自适应学习的方式来度量;二是,传统图匹配架构采用的“实例-标记”匹配一致性关系具有非常高的复杂度,影响了其在大规模数据集上的时效。算法学习过程中,首先将所有实例和标记分别构造实例图和标记图,然后通过将每个实例连接到其候选标记,将它们集成到一个统一的匹配图中。之后,采用图注意机制聚集和更新实例图上的所有节点状态,挖掘获得实例的结构化表示。最后,将每个候选标记嵌入到其对应的实例中,并通过渐进的交叉熵损失计算每个“实例-标记”的匹配亲和度。大量的对比实验结果证明,我们的算法在具有高效的标记消歧性能。4.基于异构损失和稀疏正则的偏标记学习算法。该算法将成对排序损失和逐点重构损失进行有机结合,得到融合两种损失函数优势的异构损失函数,使得模型不仅能够关注到特征空间和标记空间的映射关系,也能考虑到不同标记之间的差异关系,进而为标记消歧提供更丰富的标记排序和重构映射信息。算法引入低秩稀疏机制,将可观测标记矩阵分解为真实标记矩阵和噪声标记矩阵,并分别约束它们是稀疏的和低秩的。稀疏的真实标记矩阵与低秩的噪声标记矩阵能够准确反应偏标记学习标记空间的全局相关性,帮助引导模型实现更好的标记消歧。我们进行了大量的对比实验和消融实验,实验结果表明我们采用的异构损失函数和低秩稀疏约束机制在解决偏标记学习问题中具有优异的性能。5.基于噪声容忍的偏多标记学习算法。该算法考虑到现有基于消歧策略的偏多标记方法在标记消歧过程中,可能出现标记辨识错误或者不可靠消歧的情况,因此该算法摒弃了传统算法模型中标记消歧的模型构建方式,转而假定偏多标记数据的标记空间是真实并且完备的,特征空间存在信息缺失,进而将偏多标记学习任务转化为一种特征补全问题。模型构建过程中,我们首先引入缺失特征矩阵,并将其嵌入可观测特征矩阵,以获得完备的特征信息。之后,我们将补全的特征矩阵与给定的标记信息构建映射关系,完成理想多标记分类模型的学习。我们在大量数据集进行对比实验,实验结果表明这种特征补全的学习方式在偏多标记学习任务中能够取得不错的性能。6.基于先验知识正则表示模型的偏多标记学习算法。该算法将自表示学习模型和先验标记知识整合进一个统一学习框架,以期解决现有偏多标记学习算法中特征空间存在噪声信息和标记空间未挖掘有价值信息的问题,实现更具有表征能力的特征表示学习,方便后续标记消歧。算法构建过程中,我们首先引入低秩约束的自表示模型,学习不同实例的高阶潜在相关性。之后,我们引入先验标记知识,将其作为特征信息的补充,以期学到理想的自表示矩阵。该算法的核心是利用先验标记知识得到特征自表示过程中的数据成员偏好,对特征信息进行净化,从而获得更具代表性的特征子空间进行模型归纳。我们在大量数据集上进行了对比实验,实验结果表明该算法比最先进的方法具有更好的性能。
其他文献
多电平变换器适用于传统两电平无法满足耐压需求的中高压、大功率场合,如大功率牵引传动、高压直流输电。同时它们也越来越多地被应用在有高性能需求的低压系统,如光伏逆变器、风能变换系统和不间断电源。层叠式多单元变换器(Stacked multicell converter,SMC)作为一种典型的混合多电平拓扑,不仅继承了飞跨电容型多电平变换器输出电平易于扩展、等效开关频率高等优点,在相同输出电平数和电压等
学位
直齿圆柱齿轮作为载运工具中最常见的基础零部件之一,在铁路、公路和航工等重要领域中都起着至关重要的作用。由于其本身结构的复杂性及内外部激励的共同作用,使得齿轮系统是一种既包含非线性因素,又包含参数激励的弹性结构系统,在啮合过程中表现出复杂的动力学响应特征。另外,运行过程中极易出现由疲劳、过载和不良润滑等原因引起的局部故障,严重影响整个机械设备的工作效率和安全性。因此,对齿轮系统的非线性动力学行为和故
学位
支持向量机(SVM)是一个监督学习分类模型并广泛应用于文本分类,疾病诊断和人脸检测等领域.众所周知,0/1损失SVM模型是SVM理想的优化模型因为它极小化错分样本的个数.但由于0/1损失函数是一个非凸非连续的函数,使得0/1损失SVM是一个NP-难问题,并且关于0/1损失SVM的最优性条件和算法一直尚未被建立.本文通过分析0/1损失函数的次微分和邻近点算子,建立了求解0/1损失SVM原始模型的最优
学位
聚类分析是数据挖掘、机器学习以及模式识别领域的重要组成部分.其基本思想是基于数据点之间的相似性将一组数据划分为若干个不同的簇,且使得同一簇中的数据点相似性尽可能高而不同簇之间的数据点相似性尽可能低.聚类分析在许多领域都有着广泛的应用,如:图像处理、生物信息、社交网络等.经过几十年的研究,学者们提出了k-均值聚类、高斯混合模型聚类、谱聚类、子空间聚类等经典的聚类方法.这些聚类方法通常都需要在执行前输
学位
光纤激光器以其结构紧凑、效率高、光束质量好等优异性能,在通信、工业、军事等领域得到了广泛的应用。光纤激光器输出功率的进一步提升面临着巨大的挑战。一方面,单模光纤激光器的输出功率存在理论上的极限,另一方面,热效应、非线性效应和横模不稳定性严重限制了单模光纤激光器输出功率的进一步提升。这些关键问题导致了对功率提升技术的迫切需求。本论文对目前高功率光纤激光器功率提升的局限性进行了深入分析,设计用于高功率
学位
航天事业的蓬勃发展推动了微重力科学及其应用领域的大量研究,空间飞行器和落塔等地基实验设施都能为微重力科学研究提供微重力实验环境。由于空间飞行器在轨飞行成本高昂,且机会很少,使得在地面利用落塔开展微重力科学研究得到了快速发展。为了在微重力落塔系统中获得更长的微重力时间和更高的实验频率,科学家们提出一种采用电磁弹射技术的新型微重力落塔系统。直线电机作为微重力落塔弹射系统中的核心执行部件,其电磁和推力特
学位
作为一种重要的p型半导体,CuS具有较高的空穴迁移率,在电荷存储等方面有着广阔的应用前景和推广价值。尽管在形貌调控、化学合成、器件设计等方面有着相当数量的报道,但是关于CuS及其范德瓦尔斯异质结构在超快时间尺度上的载流子动力学信息的报道却很少见诸笔端。通过超快激光脉冲对材料进行载流子注入进而对材料中的光生载流子信息进行研究,这对于从基础物理学的角度理解并探究材料电荷传输过程及光与物质的相互作用是至
学位
中共党员领导干部是建设党和国家事业的骨干力量,体现为他们领导和组织人民管理国家事务和经济文化事业,其凭借的就是人民赋予的权力。古人云,国无德不兴,官无德不为,人无德不立。政德是新时代马克思主义政党建设中的重要政治话语和伦理规范,立政德集中体现了中国共产党人遵循政治伦理的思想自觉、价值自觉和行动自觉。党的十八大以来,习近平高度重视党员领导干部政德建设,强调要立政德、讲政德、遵政德,在政治、工作、生活
学位
光缓存技术在光分组交换网络中起着重要作用,它既可以为光路由控制提供可调的缓存时间,同时还能够解决端口竞争的问题,决定了网络节点信息处理及存储性能。已报道的光缓存器的时延通常利用光纤或波导延时线调节,但延时调节精度较低,时延带宽乘积受限,难以满足高速光网络的时钟对准精度和带宽要求。本论文在研究非互易硅基波导的缓存机理的基础上,研究了平面波导和矩形波导结构的非互易硅基磁光波导的非互易色散关系及时延特性
学位
多波长掺铥光纤激光器的工作波段为2μm,属于人眼安全波段,存在透过率大于80%的大气窗口,可应用于自由空间通信、环境监测、光纤传感等领域。基于新型全光纤滤波器件的多波长掺铥光纤激光器可精确调节输出波长,具有较强的抗电磁干扰能力,较高的激光稳定性,且结构简单易于实现,是激光空间通信的理想光源。本文结合所参与的国家自然科学基金项目,基于新型全光纤干涉仪滤波器的工作原理和设计制作,对2μm波段多波长可调
学位