论文部分内容阅读
分类是数据挖掘领域研究的核心内容,它是通过对有标签的训练样本进行学习,从而为未知标签的测试样本预测标签的过程。作为一种有监督学习的热门技术,分类已广泛应用于各个领域。投影双子支持向量机(简称PTSVM)是一个针对二分类问题的分类方法,它具有良好的推广性和较高的分类精确度,也受到了学术界的广泛研究。然而,随着数据形态的日益复杂,多分类问题已成为分类技术中研究的重点。因此,针对多分类问题,本文在PTSVM的基础上,做出了如下三个方面的工作: 第一,提出了一种新颖的多分类投影双子支持向量机算法(简称MPTSVM)。与PTSVM类似,MPTSVM通过求解多个二次规划问题得到多个投影轴。不同于PTSVM,MPTSVM有如下优点: (1)通过引入正则项以及递归优化过程,大大提升了MPTSVM的泛化能力。 (2)通过引入逐次超松弛求解方法,提升了求解二次规划问题的效率。 (3)通过引入核函数,MPTSVM被推广到非线性的情况。 第二,为了减轻MPTSVM的训练负担,提出了新颖的多分类最小二乘投影双子支持向量机(简称MLSPTSVM)。它是MPTSVM的最小二乘形式,它具有以下特点: (1)MLSPTSVM的训练过程仅需求解一系列线性方程组,从而使得该算法能够处理大规模的数据。 (2)MLSPTSVM能够为每个类别产生多个相互正交的投影轴,从而能提升算法的性能。 (3)通过引入Sherman-Morrison-Woodbury公式和降核技术,降低非线性MLSPTSVM的计算复杂度。 第三,通过在大量的人工数据集和基准数据集上的实验对比,可以得出以下结果: (1)MPTSVM与MLSPTSVM能够获得比其他几个多分类支持向量机类型方法更好的分类精确度。 (2)MLSPTSVM在能够获得与MPTSVM相当的分类精度的同时,却花费明显更少的时间。 (3)MLSPTSVM不仅能够有效地处理大规模数据,并能应用到文本分类领域上。