论文部分内容阅读
随着互联网和信息技术的快速发展,互联网中出现了大量的多标签数据,这样的数据每一条样本会同时对应到多个类别上。近些年来如何高效的处理多标签数据,已经成为研究学者们研究的一个热点问题。针对多标签问题已有的研究大部分关注在分类方法的研究上,本文考虑到数据维度较高的情况下学习起来会比较困难,同时可能遇到维度灾难问题,提出了一种针对多标签数据的新的降维方法——Multi-label Kernel Discriminant Analysis, MLKDA来实现维度约减。在多标签学习的分类阶段,本文运用多标签分类中常用的算法适应的方法,将ELM (Extreme Learning Machine)算法改进到多标签分类上,运用这一算法能够实现多标签数据高效的分类。多标签学习的过程中,降维是数据预处理过程中的一个步骤。然而高维空间中的点通常会面临线性不可分的问题,已有的一些多标签降维方法不能解决非线性降维的问题,并且不会整体考虑数据对应的多个标签,这样可能会破坏数据的整体性结构。针对这些问题,本文中MLKDA方法运用核函数进行特征的映射,解决非线性降维问题;同时考虑到多标签数据的标签之间会有一定的关联性,从而利用标签之间的关联整体考虑标签结构。本文的MLKDA降维方法希望能够在达到降维目标的同时,尽量多的保留不同类别之间的判别信息,这样不仅解决了数据维度过高可能引起的维度灾难问题,而且对后续分类过程有一定的帮助。多标签分类是多标签学习的目标。已有的多标签分类方法主要有问题转换和算法适应两种类型。通常分类方法的效率是一个很重要的问题,而多数的问题转换方法会面临效率较低、扩展性能稍差的问题。本文为实现对多标签数据相对快速准确的分类,运用算法适应方法,将ELM改进到多标签分类中,实现了多标签数据快速分类。另外,文中考虑到算法的可扩展性能,将MLKDA与多标签ELM算法的组合,扩展到多标签数据流中进行实验。算法解决了在数据流中对数据分块处理进行降维时可能遇到的小样本问题和数据流中流动的数据需要及时快速进行分类的问题。本文中MLKDA与多标签ELM算法的组合,实现了对多标签高维度数据的较好的学习。在常见的多标签数据集上的实验证明了本文提出的多标签降维方法在大多数情况下优于已有的多标签降维方法;同时实验结果表明,将ELM改进到多标签分类中,也是一种很好的选择。数据流中实验也表明文中的降维分类算法的组合有一定的扩展性。