论文部分内容阅读
在传统的监督学习中,每个对象只隶属于一个标记。然而,在现实世界中,一个对象可能同时与多个标记相关。例如,一幅图像可能同时具有“海洋”、“水”等标记,一篇文档可能同时标记为“H7N9”、“禽流感”、“发热”和“咳嗽”等。机器学习中的多标记学习是研究此类问题的一种学习框架,备受研究者的关注,而如何充分挖掘和利用标记之间的相关性是其核心研究内容。研究者们提出了一系列利用标记相关性的多标记学习方法并在许多领域得以成功应用,但大多考虑成对标记之间的相关性且有些假设标记相关性是对称的,而针对标记相关性的挖掘和利用的研究工作,尤其是高阶非对称的标记相关性,还相对较少。为此,本文围绕“高阶非对称的标记相关性利用”和“通过学习自动挖掘标记之间的相关性并加以利用”这两个方面展开研究,主要工作如下:1.提出了一种标记相关性和多标记分类的两阶段学习算法(TMLC)。该算法先采用l1稀疏编码方法,在标记空间中求出高阶非对称的标记相关性矩阵;再构建基于标记相关性的多标记分类和特征选择统一学习模型框架。在多标记数据集上的实验结果验证了TMLC算法的有效性。2.提出了一种标记协方差和多标记分类的联合学习算法(JLSML)。该算法引入一个虚拟标记作为样本的相关标记集和不相关标记集的自然分割点,并构建标记协方差和多标记分类的联合学习模型,将标记协方差的学习、分类模型的训练以及标记集的分割统一在该模型框架中。在多标记数据集上的实验结果验证了JLSML算法的有效性。3.提出了标记相关性和多标记分类的联合学习算法(JMLLC和SLMLC)。本文试图通过学习自动发现和利用高阶非对称的标记相关性,并且构建标记相关性和多标记分类联合学习模型框架,提出了JMLLC和SLMLC算法。JMLLC算法同时学习标记相关性矩阵和权重矩阵,并选择了两种不同的损失函数(罗杰斯特回归与最小二乘损失函数)。SLMLC算法将权重矩阵分成稀疏矩阵与低秩矩阵的和,其中稀疏矩阵用来获得各个标记所特有的特征子集而低秩矩阵用于获得所有标记所共享的特征子空间;然后在统一学习模型中同时学习高阶非对称的标记相关性矩阵、稀疏矩阵以及低秩矩阵。在多标记数据集上的实验结果验证了JMLLC和SLMLC算法的有效性。4.提出了一种缺失标记下基于特征选择的多标记分类算法(MLMF)。在某些实际应用中,获得具有完全标记的样本较困难,大量的样本只有部分标记(即有些标记是缺失的)。此外,大多数多标记分类算法通常难以同时处理缺失标记和标记相关性。为此,本文提出了MLMF算法,同时考虑缺失标记和标记相关性并加入了权重矩阵的l2,1范数来进行特征学习。在多标记数据集上的实验结果(包括完全标记和缺失标记)验证了MLMF算法的有效性。