基于特征选择的多标签分类算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:abo000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和计算机技术的发展,网上积累了大量的的数据。如何从海量数据中提取有用的信息或知识,并应用到相关领域成为了一个重要的研究课题。数据挖掘就是这样一种信息处理技术。  数据挖掘的任务主要包括分类、聚类、回归、预测等,其中数据分类是数据挖掘研究领域中最活跃的研究内容之一。依据样本拥有标签的多少,可以将分类问题划分为单标签分类问题和多标签分类问题。自21世纪以来,现实应用领域中出现了越来越多的多标签数据,如何对这些多标签数据进行有效分类成为一个亟需解决的课题。  与传统的单标签分类相比,多标签分类允许数据样本同时拥有多个标签。现实生活中存在许多多标签分类问题。比较常见的问题,如图书分类,可以将一本图书分类到社会、科学、经济和体育等多个主题中,一本图书可以同时属于多个类别,而且许多图书都是属于多个类别的;在音乐分类中,一首歌曲可以同时归为民歌、爱情歌曲等类别;在自动图像注释中,一幅图像可以拥有多个主题,如:树林、天空、海滩和草原等。面对这种新的情况,传统的数据分类技术是无法解决的。因此,多标签分类技术便应用而生。  目前,解决多标签分类问题的方法主要分为问题转化方法和算法转化方法。然而多标签数据分类和传统的单标签数据分类一样,面临着“维灾难”的问题。因此,若先对多标签数据进行降维,再进行分类,这样获得的多标签分类模型其分类性能会更优。其中,特征选择是降维的有效手段之一。特征选择不仅能有效去除冗余信息、降低噪声数据的干扰,而且还能提高学习效率和分类模型性能。因此,它一直是数据挖掘、模式识别和机器学习等多学科交叉研究领域的一个重要课题。但是传统的特征选择技术只处理单标签实例数据(Single-label Data),而目前多数多标签数据分类方法又不进行特征选择。因此本文将传统的单标签特征选择方法和多标签数据分类相结合,提出了一种改进的多标签数据分类方法。该方法是了解多标签分类模型构造机理的一种尝试。  本文围绕传统的特征选择技术和当前多标签数据分类技术中存在的问题,展开研究,提出了一种改进的多标签数据分类方法。  本文的主要研究内容和贡献如下:  ELA转换方法[3]根据每个多标签数据(xi,Yi)的标签将其分解成|Yi|个单标签数据(xi,λj)/|Yi|,其中λj∈Yi,|Yi|是指标签的个数。该方法在多标签文本分类中取得较好效果。我们将ELA转换方法推广应用到音乐分类、基因分类等新领域中,也取得了很好的效果。  多标签数据分类和传统的单标签数据分类一样,面临着“维灾难”的问题。因此,若先对多标签数据进行降维,再进行分类,这样获得的多标签分类模型其分类性能更好。然而传统的特征选择技术只处理单标签实例数据(Single-label Data),而目前多数多标签数据分类方法又不进行特征选择。因此本文将传统的单标签特征选择方法和多标签数据分类相结合,提出一种改进的的多标签数据分类方法。  为验证我们提出的算法的有效性,在多个基准数据集上进行实验。实验结果表明:基于特征选择的多标签分类算法在分类性能等方面要明显好于现有的一些多标签分类算法。  
其他文献
随着计算机技术的高速发展,图像处理技术的广泛应用,视频监控系统的应用已经渗透到各个领域。视频监控系统已经成为当今可视化领域的一个新的开发热点。许多应用领域对于视频监
目前,结直肠癌(Colorectal Cancer,CRC)已经成为世界范围内最常见的恶性肿瘤之一。全世界每年约有120万新发病例,约60万人死于该疾病。在过去的几十年,我国结直肠癌发病率处
摘要:随着Web技术的快速发展和本体在计算机领域的广泛应用,本体的构建和维护必须达到更高水平,传统的从零开始构建本体的方式已经不能满足高质量大规模本体构建的要求。目前,
学位
20世纪60年代,第一个E-learning雏形系统计算机英语教学的出现,打破了传统课堂教育的限制,使得教与学不再只是面对面知识的传授。近几年来,随着互联网的迅速普及,E-learning在世界
Web服务是自描述的、平台无关的,它使用开放式标准,允许不同的应用程序进行交互。Web服务作为一种新兴的信息技术,形成了一种新的基于互联网的信息系统通用框架,允许用户远程调用
近几年,移动互联网蓬勃发展,为充分发挥移动互联网的优势,加快信息化建设,更好的服务移动用户,各企业以及各政府机构都意在构建自己的移动信息服务平台。通过企业内部的移动信息服
随着互联网的发展,互联网上的信息数量也在以指数的形式快速增长,这种海量的互联网数据具有极其重要的应用价值。但这种互联网数据具体其本身的异构性、随意性以及非语义性等特
煤矿井下供风供水系统是煤矿安全生产的重要组成部分,是煤矿安全生产运行中的必备工具,供风供水系统被称为煤矿井下的“生命线”。风水管道的漏损是供风供水系统中普遍存在的现
学位