K-Means聚类算法的研究与改进

被引量 : 101次 | 上传用户：xiaoxin_1

【摘要】

：

数据挖掘是一种提取出隐含在大量数据中的潜在的、有用的信息并被人们识别、处理的数据库中的知识发现(Knowledge Discovery in Database)。数据挖掘技术结合了模式识别、数

【作者】

：

崔丹丹

【发表日期】

：

2012年01期

【关键词】

：

聚类分析数据挖掘 K-Means聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是一种提取出隐含在大量数据中的潜在的、有用的信息并被人们识别、处理的数据库中的知识发现(Knowledge Discovery in Database)。数据挖掘技术结合了模式识别、数据库、统计学、机器学习和人工智能等多个领域的一种新兴的交叉的学科技术。数据挖掘有多个研究方向,包括分类、聚类、关联规则挖掘等。聚类分析是数据挖掘领域中的一个比较热门的研究方向。聚类分析是要达到这样一种目的,将数据对象进行划分成不同的簇使得同一个簇中的数据对象具有较高的相似度,不同簇中的数据对象的相似度较低。目前为止,聚类分析算法一般有以下五种分类：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类方法。聚类算法在商务、市场分析、生物学以及文档分类等领域有着广泛的应用。另外,聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以作为数据挖掘中的一个预处理步骤。因此,研究聚类分析算法有着十分重要的意义。K-Means算法是基于划分的聚类算法中的一个典型算法。该聚类算法的一个最大的优点就是操作简单、采用误差平方和的准则函数、对大数据集的处理上有较高的可伸缩性和高效性。但是该算法存在着一定的缺陷：首先起初需要指定k值表示聚类个数；其次它比较敏感于聚类中心初值的选取问题；第三算法也极其容易的陷入局部的最优解；最后它只能发现球状的簇。K-Means算法采取随机选取初始聚类中心,因此,一旦聚类中心选取不当,将会得到一个不合理的聚类结果。本文针对聚类算法的结果对初始聚类中心依赖性的问题,对初始聚类中心选取的方法给出了分析与研究,并针对初始聚类中心选取的方法提出了两种新的算法。本文工作主要包括：1.首先介绍了数据挖掘的研究意义与聚类分析的研究背景和研究方向。2.数据挖掘中的聚类分析算法的研究。包括现有的聚类分析算法有哪些,聚类的概念和形式描述、聚类分析中的数据类型和数据结构、数据的标准化、聚类分析的相似度度量、聚类分析中的准则函数和聚类分析的一般步骤等。3.研究了K-Means算法的基本思想和原理,同时分析了K-Means算法的优缺点,研究了现有的针对K-Means算法初值选取的改进的措施。4.针对K-Means算法对初值依赖性的缺点,给出了两种改进初始聚类中心选取的算法,主要的研究成果和内容集中在以下两个方面：(1)基于坐标旋转的思路,针对K-Means算法随机选择初始聚类中心导致聚类结果不稳定的情况,提出了一种基于坐标旋转的选取聚类中心的算法(记为KCR算法),能够很好地用于低维数据的聚类上,并且改善了随机选择初始聚类中心致使K-Means算法陷入局部最优解而得不到正确聚类结果的情况,保证了聚类结果的准确与稳定性。(2)借助密度的思想,基于平均距离的思路选择初始聚类中心,给出了KAD算法,该算法克服KCR算法的缺点,并能够使初始中心尽可能的分开,克服了多个聚类中心被选在同一个簇中的情况,提高了聚类的有效性,并进行了实验验证与分析。

其他文献

宋金红绿彩莲纹研究

红绿彩是宋金时期北方磁州窑创造的釉上彩绘装饰。它的出现，开辟了中国陶瓷史釉上彩绘的先河，并且直接影响了元代景德镇五彩瓷的产生与创作。莲纹随着魏晋时期佛教的传入开始盛

学位

宋金红绿彩莲纹审美内涵影响

从语用论角度看日语依赖行为中的“配虑表达”—兼与汉语相比较

在日本，关于“配虑表达”的研究，是在“礼貌原则”理论热潮的影响下诞生并逐渐发展起来的。在中国以“礼貌原则”为中心而进行的英语和中文的比较研究并不罕见，可是，关于日本的“

学位

配虑表达礼貌原则共感型敬避型

铁路隧道抗震计算方法研究

我国地处欧亚地震带和环太平洋地震带之间,地震活动频繁,是世界上最大的大陆浅源强震活动区,具有分布广、强度高、危害大等震害特点,特别是20世纪以来,我国已经经历了4个地震

学位

铁路隧道震害地震响应特征振动台模型试验抗震计算方法

准端面双圆弧齿轮啮合特性对中心距误差的敏感性研究

圆弧齿轮承载力高、寿命长、加工方便,在石油、冶金、矿山等行业应用广泛。然而,圆弧齿轮的传动性能对中心距误差的敏感性较大,中心距误差较大时往往会造成圆弧齿轮过早的失

学位

准端面双圆弧齿轮中心距误差敏感性接触强度弯曲强度

辽代占卜研究

占卜历史悠久，从产生之日起，其在各个朝代的发展便无中断，辽亦不例外。众所周知，辽朝史料遗存之匮乏，但相比之下有于关辽代占卜的记载颇多。笔者以史料以及考古资料为根据，对辽代的

学位

辽代占卜萨满汉人理论方法

古村落形象保护与更新——浙江缙云县河阳古村落

浙江缙云县河阳古村落的形象具有独特的地域特色和文化价值，本文从人文和物质的形象要素两方面对其进行了概括。并以缙云县河阳古村落为例，面对在快速城市化下的古村落形象慢慢

期刊

古村落形象保护更新

正渗透法浓缩聚乙二醇溶液

当今世界资源短缺、环境问题日益突出。我国以煤炭和石油为主的能源与化工结构面临严峻挑战,人均能源资源不足,环境生态压力明显,节能减排任务艰巨。解决环境问题已不再是简

学位

正渗透PEG浓缩浓差极化膜分离

晚期癌症，来自“不治疗”的压力

<正>前几天有朋友咨询我,母亲被诊断为晚期胃癌,该如何治疗。朋友说,他们几兄弟姐妹都明白,已经晚期肝转移,又是胃癌这个病种,治疗价值不大,所以不打算做手术或放化疗,想让母

期刊

晚期癌症肿瘤晚期病人

基于多体动力学的整车建模与仿真分析研究

近40年来,对车辆进行复杂高精度的系统建模仿真能力有了很大的提高,而多体动力学在机械系统的建模、结构设计和优化等方面给予了强大的理论工具和技术支持,并在车辆动力学上

学位

多体动力学递推算法建模仿真分析操纵稳定性平顺性

国内合同能源管理中存在的问题与对策研究

合同能源管理是一种新型的市场化节能机制：节能服务公司与耗能企业以契约形式针对节能项目约定一定的节能目标,节能服务公司为实现节能目标向耗能企业提供必要的服务,然后耗能

学位

合同能源管理节能服务公司能源利用效率

K-Means聚类算法的研究与改进

与本文相关的学术论文