基于SVM的改进加权KNN算法对不均衡数据的分类与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dingxiaoyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来各种类型的数据信息呈爆炸式的增长,对于数据信息处理的需求也在日益不断提高,于是机器学习中的数据挖掘技术逐渐受到了越来越多人的青睐,并且其在各行各业中得到了普遍的应用。人们对庞大数据的分析从以前的手动分析,逐渐转变为利用更加智能便捷的数据挖掘技术对数据进行分类与整合,数据分类在数据挖掘技术中饰演着至关重要的角色。关于在数据挖掘中分类方法的研究,是人类对提升分类精度孜孜不倦的追求过程。本文基于目前分类技术中应用较为广泛的主流算法进行了详细的理论分析,并综合主流分类算法在现实生活的应用与普及情况的基础上,结合算法其自身的优势和特点,选取了支持向量机与K-最近邻两类算法作为主要研究对象。并且通过推导分析传统SVMKNN混合算法的的拟合原理以及对KNN分类器改进方法的相关文献研究提出对于KNN算法的权重因子改进方案,基于上述拟合理论与改进方案提出一种支持向量机分类器与KNN分类器相互拟合的基于SVM调和加权KNN算法(SVM-Based Harmonic weighted KNN algorithm,简称HWSKNN)。本文的主要研究内容以及工作如下:1)对目前几种应用较为广泛的分类算法进行了详细的理论分析,并对其中的支持向量机和K-最近邻算法的分类原理及特点进行了着重的探究分析。根据目前K-最近邻算法在不均衡数据集上分类误判问题的研究现状及算法的改进方法,提出了一种添加调和因子的改进加权KNN算法的方法,其作用可以衰减在不均衡样本集分类过程中少数类的权重值,使分类结果不会过度偏向于少数类,从而降低分类结果的过拟合现象。2)研究了支持向量机在分类过程中的判别特点,即在远离在分界面时具有良好的分类性能,但分类错分情况主要集中于分界面周边区域。根据支持向量机分类器的这一分类特点并结合SVM-KNN混合分类器的原理,将提出的改进后的加权KNN算法引入分界面周边区域,通过对阈值大小的判断来选取较为合适的分类器进行类别的判断。引入的KNN分类器的优势可以有效提高在分界面周边区域的分类准确,所以结合两类算法的优势提出支持向量机算法与改进后的KNN分类器相结合的混合算法即基于SVM调和加权KNN算法,从而提高SVM-KNN混合分类器的分类性能。3)对提出的HWSKNN算法进行分类结果检验,通过针对不同类型的数据集的分类实验,来检验传统SVM-KNN算法与HWSKNN算法之间的分类准确率差异。本文对来自文本样本数据集和UC Irvine Machine Learning Repository(简称UCI)数据集的数据样本进行分类来验证所提出算法的有效性。由理论分析和分类实验结果可以得出,提出的改进算法在保证均衡分布状态下的分类准确率的同时,对于不均衡数据集的分类性能相较改进之前SVM-KNN分类器在准确率上得到了一定的提升。
其他文献
目的:针对80例2型糖尿病伴糖尿病肾病Ⅲ期患者临床症状分析,探索其中医证型的分布规律,和与其相关指标之间的关系,旨在为糖尿病肾病Ⅲ期中医辨证分型规范化提供有价值的参考,
企业集团内部形成的资本市场具有降低交易成本、进行有效监督、优化资本配置、放松外部融资约束等方面的优势。但内部资本市场规模并非越大越好,超过一定规模会降低企业集团整
世界经济全球化,对我国经济发展既是机遇也是挑战。面对当今世界在高科技信息技术方面极具优势的国际竞争对手,我们只有思想上更加重视,技术上勇于创新,人才上加紧培养,才能有效地
通过分析三亚市的水资源量、时空分布、水质及开发利用等方面情况和对该区域的水资源特点、条件、开发利用的情况进行研究,提出加强水资源的规划、保护和管理工作,强化节约用水
介绍了O3/H2O2、O3/UV、催化臭氧化等臭氧高级氧化技术在印染废水处理中的应用,简述了臭氧与生化法组合工艺的优势,指出臭氧技术与生化处理组合工艺在印染废水处理中有广阔的