论文部分内容阅读
在多标记学习任务中,每个实例通常被同时标注有多个候选标记。通常情况下,这些标注的候选标记都是真实且完备的,因此,传统的多标记学习算法可以直接从这种理想标注的数据中学习分类器,并将其用于未知实例的标记预测。然而,在现实任务中,这种被精准标注的多标记数据是很难获得的,特别是针对于大规模数据,实现大量实例的精准标注是非常耗时耗力的。因此,从互联网上直接下载带有语义标记数据成为一种比较简单的收集大规模训练数据的方式。然而,这些下载的数据集的标注信息往往是带有噪声的(无标记、缺乏细粒度标记、标记缺失、冗余或错误),如果直接使用这些带有噪声信息的数据进行模型训练,会导致模型出现偏置。在此背景下,弱监督多标记学习(Weakly Supervised Multi-Label Learning)逐步成为机器学习和计算机视觉领域的研究热点。弱监督多标记学习是一种针对不精细或不完备监督信息的多标记学习问题统称。通常来说,弱监督可以分为三种情况:第一种是不完备监督,即只有少部分实例带有标记信息,而大量实例是未标记的;第二种是不精细监督,即训练实例只有粗粒度标注信息,而缺乏细粒度标注信息;第三种是不精准监督,即训练实例标注信息存在缺失、冗余或者错误的情况。在本文中,我们聚焦标注信息存在冗余的情形,重点研究该情形下的两种弱监督学习问题:偏标记学习和偏多标记学习。在偏标记学习任务中,每个实例关联的候选标记集合中,有且只有一个标记是真实的。在偏多标记学习任务中,实例关联的候选标记中有多个标记是有效标记。基于此,我们对两种学习问题进行了深入研究,并提出六种创新性算法:1.基于自步课程学习的偏标记学习算法。该算法模拟人类“由易至难”的学习模式,通过引入课程学习和自步学习机制,将训练数据进行难易程度划分,实现训练数据“由易至难”参与模型训练,进而引导模型由“稚弱”逐步转向“成熟”。算法学习过程中,课程学习机制模拟人类教师提前规划课程修学顺序,通过预定义先验知识调整训练数据的难易程度顺序;自步学习机制模拟人类学生自主学习方式,通过自主学习结果动态调整后续学习任务。这两种机制的有机结合形成“师生协作式”学习模式,不仅能够自由地使用先验课程知识指导模型学习,还可以避免先验课程与模型自我学习不一致的情况并进行动态调整,进而使得算法达到最佳学习状态。我们进行了大量的对比实验和消融实验,实验结果证明这种“师生协作式”学习策略,能够有效提升偏标记算法学习性能。2.基于图匹配机制的偏标记学习算法。该算法将偏标记学习中实例与标记的对应关系解释为“实例-标记”匹配,并首次将偏标记学习任务转化为“实例-标记”匹配选择问题。算法通过利用图匹配模型,充分挖掘实例的相似性信息、差异性信息以及“实例-标记”匹配一致性信息,来引导模型实现精准“实例-标记”选择。算法构建过程中,由于传统的“一对一”图匹配算法不能满足偏标记学习问题中多个实例可能对应同一标记的场景,因此我们将传统的“一对一”概率匹配算法扩展到“多对一”约束,使其适应偏标记学习问题的应用场景。此外,我们还提出了一种“实例-标记”匹配预测模型,通过加权近邻重构为未知实例指派候选标记,之后使用图匹配策略来获取真实“实例-标记”匹配。我们进行大量的对比实验,实验结果表明,我们的算法具有更强的消歧能力。3.基于深度图匹配的偏标记学习算法。该算法克服了传统图匹配偏标记学习算法的两大缺点:一是,在度量实例和标记关系时,通常将“示例-标记”关系作为固定的先验知识纳入学习框架,而不是通过自适应学习的方式来度量;二是,传统图匹配架构采用的“实例-标记”匹配一致性关系具有非常高的复杂度,影响了其在大规模数据集上的时效。算法学习过程中,首先将所有实例和标记分别构造实例图和标记图,然后通过将每个实例连接到其候选标记,将它们集成到一个统一的匹配图中。之后,采用图注意机制聚集和更新实例图上的所有节点状态,挖掘获得实例的结构化表示。最后,将每个候选标记嵌入到其对应的实例中,并通过渐进的交叉熵损失计算每个“实例-标记”的匹配亲和度。大量的对比实验结果证明,我们的算法在具有高效的标记消歧性能。4.基于异构损失和稀疏正则的偏标记学习算法。该算法将成对排序损失和逐点重构损失进行有机结合,得到融合两种损失函数优势的异构损失函数,使得模型不仅能够关注到特征空间和标记空间的映射关系,也能考虑到不同标记之间的差异关系,进而为标记消歧提供更丰富的标记排序和重构映射信息。算法引入低秩稀疏机制,将可观测标记矩阵分解为真实标记矩阵和噪声标记矩阵,并分别约束它们是稀疏的和低秩的。稀疏的真实标记矩阵与低秩的噪声标记矩阵能够准确反应偏标记学习标记空间的全局相关性,帮助引导模型实现更好的标记消歧。我们进行了大量的对比实验和消融实验,实验结果表明我们采用的异构损失函数和低秩稀疏约束机制在解决偏标记学习问题中具有优异的性能。5.基于噪声容忍的偏多标记学习算法。该算法考虑到现有基于消歧策略的偏多标记方法在标记消歧过程中,可能出现标记辨识错误或者不可靠消歧的情况,因此该算法摒弃了传统算法模型中标记消歧的模型构建方式,转而假定偏多标记数据的标记空间是真实并且完备的,特征空间存在信息缺失,进而将偏多标记学习任务转化为一种特征补全问题。模型构建过程中,我们首先引入缺失特征矩阵,并将其嵌入可观测特征矩阵,以获得完备的特征信息。之后,我们将补全的特征矩阵与给定的标记信息构建映射关系,完成理想多标记分类模型的学习。我们在大量数据集进行对比实验,实验结果表明这种特征补全的学习方式在偏多标记学习任务中能够取得不错的性能。6.基于先验知识正则表示模型的偏多标记学习算法。该算法将自表示学习模型和先验标记知识整合进一个统一学习框架,以期解决现有偏多标记学习算法中特征空间存在噪声信息和标记空间未挖掘有价值信息的问题,实现更具有表征能力的特征表示学习,方便后续标记消歧。算法构建过程中,我们首先引入低秩约束的自表示模型,学习不同实例的高阶潜在相关性。之后,我们引入先验标记知识,将其作为特征信息的补充,以期学到理想的自表示矩阵。该算法的核心是利用先验标记知识得到特征自表示过程中的数据成员偏好,对特征信息进行净化,从而获得更具代表性的特征子空间进行模型归纳。我们在大量数据集上进行了对比实验,实验结果表明该算法比最先进的方法具有更好的性能。