论文部分内容阅读
自上世纪后期人们进入信息时代,各种数据就海量积累起来,远远超出了人力的处理范围,出现了“信息爆炸而知识匮乏”的现象。为此,数据挖掘技术应运而生,并显示出了强大的生命力。分类是数据挖掘中最常见的任务之一。它是通过已知的信息总结出规律,用来对新的数据进行判别,对其进行预测的过程。其中比较特殊的一种情况是一个样本具有多个标签的分类问题,称为单实例多标签分类问题。不同于常见的单标签分类情况,在这类问题中,数据具有多个标签使得样本的归属变得模糊不清,难以准确分类,具有相当的难度。然而在日常生活中其用途十分广泛,很多学者都致力于此,出现了很多优秀的算法及其改进。本文针对该问题设计了一种基于模糊支持向量机的多标签分类算法。支持向量机(Support Vector Machine, SVM)是一种新兴的分类机器,于上世纪九十年代末期由AT&T Bell实验室的Vapnik等人提出。该分类器基于统计学习理论和结构风险最小化原理,集成了最优分类超平面、核函数、凸二次规划等技术,能有效地解决“过学习”、“维数灾难”和局部极小点等问题,具有良好的推广性和准确率。但是支持向量机是针对两类单标签的数据集进行设计的,不能直接应用在多类别、多标签的问题中。为此本文设计了一种模糊支持向量机,能够对含有两类数据、样本可能具有两个标签的数据集进行分类。该分类器采用了模糊设计思想,通过对样本设置一个隶属度函数,充分利用了数据信息。该分类器不存在不可分区域,具有良好的分类精度。为了准确描述样本对类别的隶属关系,本文设计了一种基于距离和密度的隶属度函数。考虑到多标签分类的特殊性,本文采用了一对一分解策略,将原始数据分解为多个两类双标签子集分别训练,然后将其结果使用投票法进行组合,最终完成多标签分类。为了提高训练速度,降低训练集中噪音点对最优决策超平面的影响,本文引进了一种快速模糊核聚类技术,有效地提高了算法的性能。在实验部分,本文首先总结了一些被广泛采用的多标签分类算法的评价标准,然后在UCI提供的数据集上进行实验,最后将结果与现有的一些多标签分类算法进行了比较。