论文部分内容阅读
如何对大规模多类数据进行有效高精度分类是数据挖掘领域所要解决的重要问题,而待处理数据类间的关系提取则是该分类问题的关键。数据关系提取是指将待分类数据类间的隐含关系(包括属性、特征、边界等)找出,通过训练得到分类器(组)将不同类别的数据分类,而数据关系提取的优劣则会影响到分类结果。在解决现实问题及科学研究的过程中,多类数据分类问题也越来越受到研究人员的重视,许多高效地多分类算法也大量涌现。基于支持向量机(Support Vector Machine, SVM)的多分类方法是将SVM分类思想与多分类方法相结合,对数据样本之间的数据关系优化提取并训练出分类器组合。基于数据关系的SVM多分类方法充分将SVM良好的学习和分类能力与“一对一”思想相结合,对多类样本进行划分并从中获取冗余信息,从而优化分类器组,提高样本数据集分类精度。论文主要工作包括:(1)对已有的SVM多方法进行了分析总结,指出现有SVM多分类算法中存在的主要问题,并针对这些问题进行探索研究。(2)对不平衡数据分类问题进行了总结概括,指出现有不平衡数据分类方法的优势与不足,并针对这些不足提出改进策略。(3)提出一种针对于平衡多类数据的基于向量积的SVM多分类方法—DR-SVM学习算法,并对DR-SVM算法思想进行了研究和探讨。该方法使用基于向量内积的方法将待分类数据样本进行预处理,在预处理的基础上摒弃冗余信息,有效标注SVM的训练样本,优化分类器组模型,提高数据样本分类效率。(4)提出一种针对于不平衡的多类数据的基于空间扩展的SVM多分类方法——SS-SVM方法。SS-SVM方法首先利用基于空间扩展的方法对待分类数据进行预处理,增加训练集中少类样本的数量,降低分类不平衡度,提高少类样本的分类效率。(5)针对实验中出现的“小区块”问题、“冗余分类”问题、“绝对不平衡”问题等,在DR-SVM和SS-SVM的基础上进行改进和优化,参考和利用一系列的决策原则,并将这些原则应用到具体类别划分问题上。多分类问题是数据挖掘中是非常热门的研究方向,不平衡分类问题更是而今大规模数据时代非常重要研究热点。论文所做的研究在丰富SVM理论与应用研究的同时,也拓宽了不平衡问题和多分类问题的解决思路,具有重要的理论意义和实际应用价值。