基于模糊核聚类和模糊支持向量机的多标签分类方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:wgl_future
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪后期人们进入信息时代,各种数据就海量积累起来,远远超出了人力的处理范围,出现了“信息爆炸而知识匮乏”的现象。为此,数据挖掘技术应运而生,并显示出了强大的生命力。分类是数据挖掘中最常见的任务之一。它是通过已知的信息总结出规律,用来对新的数据进行判别,对其进行预测的过程。其中比较特殊的一种情况是一个样本具有多个标签的分类问题,称为单实例多标签分类问题。不同于常见的单标签分类情况,在这类问题中,数据具有多个标签使得样本的归属变得模糊不清,难以准确分类,具有相当的难度。然而在日常生活中其用途十分广泛,很多学者都致力于此,出现了很多优秀的算法及其改进。本文针对该问题设计了一种基于模糊支持向量机的多标签分类算法。支持向量机(Support Vector Machine, SVM)是一种新兴的分类机器,于上世纪九十年代末期由AT&T Bell实验室的Vapnik等人提出。该分类器基于统计学习理论和结构风险最小化原理,集成了最优分类超平面、核函数、凸二次规划等技术,能有效地解决“过学习”、“维数灾难”和局部极小点等问题,具有良好的推广性和准确率。但是支持向量机是针对两类单标签的数据集进行设计的,不能直接应用在多类别、多标签的问题中。为此本文设计了一种模糊支持向量机,能够对含有两类数据、样本可能具有两个标签的数据集进行分类。该分类器采用了模糊设计思想,通过对样本设置一个隶属度函数,充分利用了数据信息。该分类器不存在不可分区域,具有良好的分类精度。为了准确描述样本对类别的隶属关系,本文设计了一种基于距离和密度的隶属度函数。考虑到多标签分类的特殊性,本文采用了一对一分解策略,将原始数据分解为多个两类双标签子集分别训练,然后将其结果使用投票法进行组合,最终完成多标签分类。为了提高训练速度,降低训练集中噪音点对最优决策超平面的影响,本文引进了一种快速模糊核聚类技术,有效地提高了算法的性能。在实验部分,本文首先总结了一些被广泛采用的多标签分类算法的评价标准,然后在UCI提供的数据集上进行实验,最后将结果与现有的一些多标签分类算法进行了比较。
其他文献
随着全球化趋势和国际互联网的发展,人们更加迫切的希望可以突破语言的障碍进行交流,因而对于语种识别技术的需求也与日俱增。不仅如此,语种识别还广泛应用于军事、国家安全
随着无线通信技术的不断发展,通信环境也变得越来越复杂。通信信号在很宽的频带上采用各种调制样式。显然,采用不同调制样式的通信信号的调制参数也不完全相同。如何对这些信
随着电子信息技术的飞速发展,从收音机、电视机、计算机到智能手机、智能家电,每一种新事物的出现都给我们的生活带来了舒适和方便。家庭网络化和智能化已经成为当前家居发展
本文运用双线性、双三次和双三次样条插值算法,针对具有相似形貌,但材质不同的树叶进行偏振图像处理。搭建偏振探测系统对具有相似形貌材质不同的树叶进行偏振成像,并运用双
近年来,为了满足人们对通信的高要求,宽带极化分集天线得到快速的发展。为了避免宽带和已被利用的频带之间的干扰,宽带陷波天线的研究也引起了研究人员持久的关注。本文主要