论文部分内容阅读
在多标签学习中,多标签数据的每个样本含有多个标签,标签与标签之间也不是独立存在的。多标签数据的维数较高,增加了数据挖掘的复杂度和难度。近些年来如何高效地处理多标签数据,成为研究者们研究的一个热点问题。特征降维能降低多标签数据的维度、缩小数据规模,提高多标签学习的性能。本论文提出了两种多标签学习特征降维算法:(1)基于主成分分析的多标签学习特征降维算法(MLFR-PCA)。首先该算法利用PCA原理将原始数据投影到低维空间,对数据进行密集和去噪处理。其次算法将数据的所有标签作为一个整体,在标签与特征之间引入稀疏回归,建立起标签空间与特征空间的联系,以此构造数据降维的目标函数。然后结合2,1l范数对算法进行优化处理,最终实现降低多标签数据维数的目的。(2)基于非负矩阵分解的多标签学习特征降维算法(MLFR-NMF)。首先该算法用特征矩阵与非负矩阵的乘积构建特征空间的相似矩阵。其次将数据的所有标签作为一个整体,利用已有方法构造标签空间的相似矩阵。然后在特征空间的相似矩阵与标签空间的相似矩阵之间引入最小二乘法,建立起标签空间与特征空间的联系,以此构造数据降维的目标函数。最后结合2l范数对算法进行优化处理,以实现降低多标签数据维数的目的。以上两种特征降维算法可以直接对多标签数据进行降维,不需要转化多标签数据为单标签数据,这样不仅减少了转化过程引起的工作量增大问题,也避免了因转化不准确带来的后续问题。此外,算法将数据的所有标签作为一个整体参与目标函数构造,这样可以在不破坏标签结构的情况下,有效利用标签信息实现降维。通过在真实数据集上的实验,表明了两种算法效果良好。