论文部分内容阅读
支持向量机是人工智能领域中机器学习算法中的一种监督学习算法,该算法通过映射,使低维样本数据在映射到高维特征空间一个超平面将两类样本数据分开。传统支持向量机仅解决二分类问题,对于多分类问题,将多分类问题转化成多个二分类问题,集成多个二分类支持向量机构成多分类支持向量机。基于二叉树的组合型多分类支持向量机具有需训练的二分类SVM个数少的优点,避免了一对多、多对多方法的不可分、拒分区域问题的出现。但由于其二叉树结构的多样性和组合型多分类支持向量机保证每一个样本类别为一个整体的特点,目前已提出了的基于组合型多分类支持向量机二叉树结构的构造方法缺乏类别组合具体评价标准。本文针对基于二叉树的多分类支持向量机构造过程中,结构的类别组合方式缺乏类别组合评价标准的问题,为保证每一个样本类别为一个整体的前提,在传统基于变量属性的信息增益比的模型基础上,定义了基于分类属性的信息增益(Information Gain)比,建立了基于分类属性IG比的组合结构评价模型,提出了基于分类属性IG比的多分类支持向量机结构评价方法。该方法在二叉树结构构造过程中,对于多个细分类组合成的左右两个大类别,计算每种可能的组合依赖于变量的分类属性IG比,对于每个变量存在一个最大IG比值及其取最大值所对应的类别组合,将这些类别组合的极大分类属性IG比值作为该组合优劣的衡量标准。使用UCI数据库的数据集对该方法进行实证分析,结果表明,评价指标值取最大值时,其对应类别组合构成的多分类SVM具有较高的识别率。