论文部分内容阅读
互联网技术的发展产生了大量高维、多样和结构复杂的数据,其中包括大量单个实例对应多个标签的多标签数据。传统的监督学习算法大多用于处理单标签数据,无法很好的挖掘多标签数据的内部信息,因此多标签学习受到了广大学者的关注和研究。多标签学习同样面临维度灾难的问题,为了避免维度过高带来的过拟合和精度下降的问题,本文引入非负矩阵分解(Non-negative Matrix Factorization,NMF)和极限学习机(Extreme Learning Machine,ELM)构建多标签学习模型。本文首先针对传统的NMF算法进行研究,并在此基础上提出了分解维度自适应的图正则化非负矩阵分解算法,随后优化多标签径向基神经网络(Mutil-label Learning Algorithm Based on Radial Basis Neural Network,ML-RBF)算法的隐层节点个数、隐层RBF函数中心和输出权重计算方式提出了基于拉普拉斯极限学习机和径向基神经网络的多标签学习模型,最后结合两种改进算法提出一种融合非负矩阵分解和极限学习机的多标签学习算法,并通过实验验证了算法的有效性。本文主要研究内容如下:(1)研究基于分解维度自适应的图正则化非负矩阵分解算法。针对NMF分解维度需要人为依据先验知识确定的缺点,使用近邻传播(Affinity Propagation,AP)聚类算法优化分解维度,并将原始数据投影到非负特征空间,提出了分解维度自适应的非负矩阵分解(Factorization Dimension Adaptive Non-negative Matrix Factorization,FDANMF)算法。使用K近邻(K nearest neighbor,KNN)和ELM对低维数据进行分类,验证算法的有效性。为了进一步提高低维表示数据的鲁棒性,结合FDANMF和图正则化非负矩阵分解(Graph Regularized Non-negative Matrix Factorization,GNMF)的思想提出了分解维度自适应的图正则化非负矩阵分解算法(Factorization Dimension Adaptive GNMF,FDAGNMF),并通过实验验证了FDAGNMF算法结合ELM和KNN分类算法的分类准确率高于FDANMF的分类准确率。(2)研究基于极限学习机和径向基神经网络的多标签学习算法。首先分析传统的ML-RBF算法在进行多标签学习时存在的缺点与不足,ML-RBF隐层节点的个数是通过对每个标签所包含的样本分别进行均值聚类得到的,而值是通过每类样本的比例确定的,并不能反应样本真实信息。因此使用近邻传播聚类算法确定隐层节点的个数,并使用正则化极限学习机(Regularized Extreme Learning Machine,RELM)计算输出权重,提出基于正则化极限学习机和径向基神经网络的多标签学习算法(Muti-lable Learning Model Based on Radial Basis Neural Network and Regularized Extreme Learning Machine,ML-AP-RBF-RELM)。通过在三个多标签数据集上与其它五种多标签学习算法进行对比,并使用五种评价标准进行度量验证提出算法的有效性。进一步分析ML-AP-RBF-RELM中存在的问题,使用近邻传播聚类算法同时确定隐层节点的个数和隐层RBF函数的中心,并利用Lap-El M计算输出权重,提出基于拉普拉斯极限学习机和径向基神经网络的多标签学习算法(Multi-label Learning Model Based on Radial Basis Neural Network and Laplacian Extreme Learning Machine,ML-AP-RBF-Lap-ELM),并与ML-AP-RBF-RELM进行对比验证算法有效性。(3)研究融合非负矩阵分解和极限学习机的多标签学习算法。本文结合FDAGNMF和ML-AP-RBF-Lap-ELM算法,提出了一种融合非负矩阵分解和极限学习机的多标签学习算法(Muti-lable Learning Model Based on Non-negative Matrix Factorization and Extreme Learning Machine,ML-NMF-RBF-Lap-ELM)。首先使用FDAGNMF算法对数据进行降维,然后使用ML-AP-RBF-Lap-ELM算法对低维数据进行分类。最后,与多标签学习算法ML-AP-RBF-RELM在四个多标签数据集上进行对比,通过实验验证融合算法的有效性。