K-Means聚类算法的研究与改进

被引量 : 101次 | 上传用户:xiaoxin_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一种提取出隐含在大量数据中的潜在的、有用的信息并被人们识别、处理的数据库中的知识发现(Knowledge Discovery in Database)。数据挖掘技术结合了模式识别、数据库、统计学、机器学习和人工智能等多个领域的一种新兴的交叉的学科技术。数据挖掘有多个研究方向,包括分类、聚类、关联规则挖掘等。聚类分析是数据挖掘领域中的一个比较热门的研究方向。聚类分析是要达到这样一种目的,将数据对象进行划分成不同的簇使得同一个簇中的数据对象具有较高的相似度,不同簇中的数据对象的相似度较低。目前为止,聚类分析算法一般有以下五种分类:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类方法。聚类算法在商务、市场分析、生物学以及文档分类等领域有着广泛的应用。另外,聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以作为数据挖掘中的一个预处理步骤。因此,研究聚类分析算法有着十分重要的意义。K-Means算法是基于划分的聚类算法中的一个典型算法。该聚类算法的一个最大的优点就是操作简单、采用误差平方和的准则函数、对大数据集的处理上有较高的可伸缩性和高效性。但是该算法存在着一定的缺陷:首先起初需要指定k值表示聚类个数;其次它比较敏感于聚类中心初值的选取问题;第三算法也极其容易的陷入局部的最优解;最后它只能发现球状的簇。K-Means算法采取随机选取初始聚类中心,因此,一旦聚类中心选取不当,将会得到一个不合理的聚类结果。本文针对聚类算法的结果对初始聚类中心依赖性的问题,对初始聚类中心选取的方法给出了分析与研究,并针对初始聚类中心选取的方法提出了两种新的算法。本文工作主要包括:1.首先介绍了数据挖掘的研究意义与聚类分析的研究背景和研究方向。2.数据挖掘中的聚类分析算法的研究。包括现有的聚类分析算法有哪些,聚类的概念和形式描述、聚类分析中的数据类型和数据结构、数据的标准化、聚类分析的相似度度量、聚类分析中的准则函数和聚类分析的一般步骤等。3.研究了K-Means算法的基本思想和原理,同时分析了K-Means算法的优缺点,研究了现有的针对K-Means算法初值选取的改进的措施。4.针对K-Means算法对初值依赖性的缺点,给出了两种改进初始聚类中心选取的算法,主要的研究成果和内容集中在以下两个方面:(1)基于坐标旋转的思路,针对K-Means算法随机选择初始聚类中心导致聚类结果不稳定的情况,提出了一种基于坐标旋转的选取聚类中心的算法(记为KCR算法),能够很好地用于低维数据的聚类上,并且改善了随机选择初始聚类中心致使K-Means算法陷入局部最优解而得不到正确聚类结果的情况,保证了聚类结果的准确与稳定性。(2)借助密度的思想,基于平均距离的思路选择初始聚类中心,给出了KAD算法,该算法克服KCR算法的缺点,并能够使初始中心尽可能的分开,克服了多个聚类中心被选在同一个簇中的情况,提高了聚类的有效性,并进行了实验验证与分析。
其他文献
红绿彩是宋金时期北方磁州窑创造的釉上彩绘装饰。它的出现,开辟了中国陶瓷史釉上彩绘的先河,并且直接影响了元代景德镇五彩瓷的产生与创作。莲纹随着魏晋时期佛教的传入开始盛
在日本,关于“配虑表达”的研究,是在“礼貌原则”理论热潮的影响下诞生并逐渐发展起来的。在中国以“礼貌原则”为中心而进行的英语和中文的比较研究并不罕见,可是,关于日本的“
我国地处欧亚地震带和环太平洋地震带之间,地震活动频繁,是世界上最大的大陆浅源强震活动区,具有分布广、强度高、危害大等震害特点,特别是20世纪以来,我国已经经历了4个地震
圆弧齿轮承载力高、寿命长、加工方便,在石油、冶金、矿山等行业应用广泛。然而,圆弧齿轮的传动性能对中心距误差的敏感性较大,中心距误差较大时往往会造成圆弧齿轮过早的失
占卜历史悠久,从产生之日起,其在各个朝代的发展便无中断,辽亦不例外。众所周知,辽朝史料遗存之匮乏,但相比之下有于关辽代占卜的记载颇多。笔者以史料以及考古资料为根据,对辽代的
浙江缙云县河阳古村落的形象具有独特的地域特色和文化价值,本文从人文和物质的形象要素两方面对其进行了概括。并以缙云县河阳古村落为例,面对在快速城市化下的古村落形象慢慢
当今世界资源短缺、环境问题日益突出。我国以煤炭和石油为主的能源与化工结构面临严峻挑战,人均能源资源不足,环境生态压力明显,节能减排任务艰巨。解决环境问题已不再是简
<正>前几天有朋友咨询我,母亲被诊断为晚期胃癌,该如何治疗。朋友说,他们几兄弟姐妹都明白,已经晚期肝转移,又是胃癌这个病种,治疗价值不大,所以不打算做手术或放化疗,想让母
近40年来,对车辆进行复杂高精度的系统建模仿真能力有了很大的提高,而多体动力学在机械系统的建模、结构设计和优化等方面给予了强大的理论工具和技术支持,并在车辆动力学上
合同能源管理是一种新型的市场化节能机制:节能服务公司与耗能企业以契约形式针对节能项目约定一定的节能目标,节能服务公司为实现节能目标向耗能企业提供必要的服务,然后耗能