论文部分内容阅读
近些年来各种类型的数据信息呈爆炸式的增长,对于数据信息处理的需求也在日益不断提高,于是机器学习中的数据挖掘技术逐渐受到了越来越多人的青睐,并且其在各行各业中得到了普遍的应用。人们对庞大数据的分析从以前的手动分析,逐渐转变为利用更加智能便捷的数据挖掘技术对数据进行分类与整合,数据分类在数据挖掘技术中饰演着至关重要的角色。关于在数据挖掘中分类方法的研究,是人类对提升分类精度孜孜不倦的追求过程。本文基于目前分类技术中应用较为广泛的主流算法进行了详细的理论分析,并综合主流分类算法在现实生活的应用与普及情况的基础上,结合算法其自身的优势和特点,选取了支持向量机与K-最近邻两类算法作为主要研究对象。并且通过推导分析传统SVMKNN混合算法的的拟合原理以及对KNN分类器改进方法的相关文献研究提出对于KNN算法的权重因子改进方案,基于上述拟合理论与改进方案提出一种支持向量机分类器与KNN分类器相互拟合的基于SVM调和加权KNN算法(SVM-Based Harmonic weighted KNN algorithm,简称HWSKNN)。本文的主要研究内容以及工作如下:1)对目前几种应用较为广泛的分类算法进行了详细的理论分析,并对其中的支持向量机和K-最近邻算法的分类原理及特点进行了着重的探究分析。根据目前K-最近邻算法在不均衡数据集上分类误判问题的研究现状及算法的改进方法,提出了一种添加调和因子的改进加权KNN算法的方法,其作用可以衰减在不均衡样本集分类过程中少数类的权重值,使分类结果不会过度偏向于少数类,从而降低分类结果的过拟合现象。2)研究了支持向量机在分类过程中的判别特点,即在远离在分界面时具有良好的分类性能,但分类错分情况主要集中于分界面周边区域。根据支持向量机分类器的这一分类特点并结合SVM-KNN混合分类器的原理,将提出的改进后的加权KNN算法引入分界面周边区域,通过对阈值大小的判断来选取较为合适的分类器进行类别的判断。引入的KNN分类器的优势可以有效提高在分界面周边区域的分类准确,所以结合两类算法的优势提出支持向量机算法与改进后的KNN分类器相结合的混合算法即基于SVM调和加权KNN算法,从而提高SVM-KNN混合分类器的分类性能。3)对提出的HWSKNN算法进行分类结果检验,通过针对不同类型的数据集的分类实验,来检验传统SVM-KNN算法与HWSKNN算法之间的分类准确率差异。本文对来自文本样本数据集和UC Irvine Machine Learning Repository(简称UCI)数据集的数据样本进行分类来验证所提出算法的有效性。由理论分析和分类实验结果可以得出,提出的改进算法在保证均衡分布状态下的分类准确率的同时,对于不均衡数据集的分类性能相较改进之前SVM-KNN分类器在准确率上得到了一定的提升。