论文部分内容阅读
近年来,随着信息技术的发展,多标签数据广泛存在于现实世界中,因此多标签学习成为了当前人工智能的主要研究热点,在影像分类、多媒体图像标注以及文本分类中得到广泛应用。不同于传统的每个样本只和一个标签有关的单标签学习,多标签学习每个样本可能与多个类别信息有关,其中每个实例可以和一组标签对应。通常多标签数据含有大量的特征,这些特征可能包含冗余和噪声,导致在学习过程中出现维度灾难问题。使得多标签学习问题相较于单标签学习问题更加困难。如何从多标签数据中提取有效特征,增强分类性能,具有重要的研究意义。同时,随着数据规模的增大,获取数据的标签信息需要很大的代价。如何利用数据的几何结构以及部分的标签信息提升分类性能,也是一个需要研究的问题。本文将围绕以上两个问题展开深入分析以及研究,并提出一些新的模型和解决方案。本文的研究内容主要从以下三个方面展开:(1)传统的度量学习算法LMNN(Large Margin Nearest Neighbor)只能用于学习单标签数据的度量矩阵。针对此问题,本文提出一种加权LMNN算法,将其应用于多标签数据的度量矩阵学习。此外,作为一种线性度量学习方法,LMNN所学习的度量矩阵无法反映数据的局部几何结构。对此,本文基于流形学习算法的思想构造正则项,并引入加权LMNN模型。本文提出的基于多标签数据的加权LMNN算法,继承了LMNN算法的优点,在保证类内距离更小,使类间距离尽可能的大,同时能尽可能保持数据的局部几何机构,提高了算法在标注数据不充分时的鲁棒性。(2)在现实世界中,样本数据之间通常具有非线性关系,流形学习算法作为一种非线性特征提取算法得到广泛应用。传统的半监督流形学习方法的提出大多针对单标签数据,并不适用于多标签数据分类。对此,本文提出一种基于多标签数据的半监督流形学习算法。在局部切空间排列算法(Local Tangent Space Alignment,LTSA)的基础上,根据标注数据标签信息的相关性进行局部距离矩阵的重构,增加异类数据的局部距离。同时,借鉴半监督流形学习的思想,将高维数据直接投影到标签空间,无需与分类器算法结合即可获取未标注数据的标签信息。(3)传统的流形学习算法如稀疏流形聚类嵌入(Sparse Manifold Cluster And Embedding,SMCE)采用单个的局部重构权构造样本的局部几何关系。对于多标签数据,采用单个权难以反映样本真正的局部几何结构。针对此问题,本文提出一种基于多标签数据的半监督多重权保持嵌入算法。对于具有c个标签的样本数据,在每个样本点的局部邻域,构造c组权以反映样本的局部几何结构,每组权反映样本点在某一个标签上的局部几何结构。通过在低维空间保持样本的局部多重权,构造算法的全局优化模型。最后,结合半监督流形算法思想,直接获取未标注数据的标签信息。在多个数据集上的实验结果验证了本文算法的有效性。