论文部分内容阅读
随着网络的普及和计算机技术的发展,网上积累了大量的的数据。如何从海量数据中提取有用的信息或知识,并应用到相关领域成为了一个重要的研究课题。数据挖掘就是这样一种信息处理技术。 数据挖掘的任务主要包括分类、聚类、回归、预测等,其中数据分类是数据挖掘研究领域中最活跃的研究内容之一。依据样本拥有标签的多少,可以将分类问题划分为单标签分类问题和多标签分类问题。自21世纪以来,现实应用领域中出现了越来越多的多标签数据,如何对这些多标签数据进行有效分类成为一个亟需解决的课题。 与传统的单标签分类相比,多标签分类允许数据样本同时拥有多个标签。现实生活中存在许多多标签分类问题。比较常见的问题,如图书分类,可以将一本图书分类到社会、科学、经济和体育等多个主题中,一本图书可以同时属于多个类别,而且许多图书都是属于多个类别的;在音乐分类中,一首歌曲可以同时归为民歌、爱情歌曲等类别;在自动图像注释中,一幅图像可以拥有多个主题,如:树林、天空、海滩和草原等。面对这种新的情况,传统的数据分类技术是无法解决的。因此,多标签分类技术便应用而生。 目前,解决多标签分类问题的方法主要分为问题转化方法和算法转化方法。然而多标签数据分类和传统的单标签数据分类一样,面临着“维灾难”的问题。因此,若先对多标签数据进行降维,再进行分类,这样获得的多标签分类模型其分类性能会更优。其中,特征选择是降维的有效手段之一。特征选择不仅能有效去除冗余信息、降低噪声数据的干扰,而且还能提高学习效率和分类模型性能。因此,它一直是数据挖掘、模式识别和机器学习等多学科交叉研究领域的一个重要课题。但是传统的特征选择技术只处理单标签实例数据(Single-label Data),而目前多数多标签数据分类方法又不进行特征选择。因此本文将传统的单标签特征选择方法和多标签数据分类相结合,提出了一种改进的多标签数据分类方法。该方法是了解多标签分类模型构造机理的一种尝试。 本文围绕传统的特征选择技术和当前多标签数据分类技术中存在的问题,展开研究,提出了一种改进的多标签数据分类方法。 本文的主要研究内容和贡献如下: ELA转换方法[3]根据每个多标签数据(xi,Yi)的标签将其分解成|Yi|个单标签数据(xi,λj)/|Yi|,其中λj∈Yi,|Yi|是指标签的个数。该方法在多标签文本分类中取得较好效果。我们将ELA转换方法推广应用到音乐分类、基因分类等新领域中,也取得了很好的效果。 多标签数据分类和传统的单标签数据分类一样,面临着“维灾难”的问题。因此,若先对多标签数据进行降维,再进行分类,这样获得的多标签分类模型其分类性能更好。然而传统的特征选择技术只处理单标签实例数据(Single-label Data),而目前多数多标签数据分类方法又不进行特征选择。因此本文将传统的单标签特征选择方法和多标签数据分类相结合,提出一种改进的的多标签数据分类方法。 为验证我们提出的算法的有效性,在多个基准数据集上进行实验。实验结果表明:基于特征选择的多标签分类算法在分类性能等方面要明显好于现有的一些多标签分类算法。