K-means聚类算法改进研究

被引量 : 0次 | 上传用户:lryna22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量的数据集中提取隐含未知并且潜在有价值的信息知识的过程,数据挖掘技术综合了数据库、机器学习、统计学、人工智能、模式识别等多个领域知识,是一种新兴的交叉科学技术。聚类分析在数据挖掘技术中是一个非常重要研究领域,同时是人们探究和提取事物之间内在关系的有效技术方法,其主要功能是按照一定的规则把给定的数据集进行分组或划分,使得同一类内的数据对象间相似性比较大,不同类的数据对象间相似性比较小。目前聚类分析被广泛应用于各行各业中,聚类分析算法按照其思想可分为以下五类:基于层次的聚类算法、基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法以及基于模型的聚类算法。K-means算法是一种基于划分的经典算法。由于该算法具有操作简单、高效性和较好伸缩性等优点而被得到广泛使用。然而该算法却存在着一些缺陷:聚类结果对聚类中心点的初始选择和用户输入的k值具有敏感性和依赖性,并容易受孤立点的影响,形成局部最优解的局面。本文主要针对K-means算法中易受孤立点的影响及对用户输入的k值依赖,对K-means算法聚类过程进行了改进研究:提出了基于网格化预处理数据算法和基于距离最大化的k值自动生成算法,并分别进行了实验验证了其可行性和有效性。
其他文献
在海洋工程研究领域中,基于视觉原理的非接触测量技术为海洋平台及流体运动信息的精准测量提供了一种高效的解决途径。该技术以工业相机和图像采集卡取代传统的接触式传感器,
<正>心律失常是心血管疾病领域的常见病、多发病[1]。目前,抗心律失常药物多以西药为主,但其中部分药物存在致心律失常的不良反应,影响了临床应用。稳心颗粒作为抗心律失常的
脉诊能力是非常主观的医师个人技术能力体现。一般脉诊研究,基本分三大类,第一类是从历代古籍医案记载的脉学研究;第二类是用科学定量,机械器具监测脉象作图,以科学的方式进行
<正> 在党的中医政策指导下,我们根据民间用柞树皮治痢疾的经验将柞树叶煎剂对弗氏、宋氏等15个痢疾菌型做了抑菌试验,并与其它抗痢药物做了试验对照,证明了柞树叶煎剂对以上
本文介绍了土壤热参数在水热耦合数学中的应用以及土壤热导率的确定方法;并进一步采用Campbell经验公式拟合毛乌素风积沙土壤含水率与热导率的关系,结果表明Campbell公式的拟
喉癌是头颈部常见的恶性肿瘤之一,其全世界发病率呈逐年增长趋势。目前喉癌的治疗方法主要是手术治疗,虽然人们一直致力于对喉癌早诊断、早治疗,并在切除癌肿的前提下,尽可能
目的探讨手术室优质护理对急诊剖宫产产妇应激反应的影响。方法对2018年1月~2018年12月在我院行急诊剖宫产的39例产妇实施优质护理作为观察组,选择2017年1月~2017年12月实施
农民体育权利缺失和农村体育发展滞后是构建和谐社会中亟待解决的问题。基于社会排斥理论,分析了农村体育在经济、政治、文化、教育、组织等5个维度上遭受不同程度的社会排斥,
征婚广告作为一种特殊的广告类别有着不同于其它广告文本的特点,本文所采用的评价系统是在系统功能语言学基础上发展起来的研究人际意义的理论,本文首次将评价理论应用于征婚广
<正>全面落实党风廉政建设主体责任,是党中央着眼于大力推进党风廉政建设和反腐败斗争的战略高度作出的重大部署,是加强党风廉政建设的重要制度性安排。党委能否落实好主体责