k-均值聚类算法的改进与实现

被引量 : 0次 | 上传用户:jueduizone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是探索数据重要特征的一种有效的无监督数据挖掘方法,通过无监督方法自动识别对象空间中的稠密和稀疏区域的过程。在当今大数据时代的背景下,聚类分析已成为数据挖掘和机器学习领域的研究热点之一。k-均值聚类算法是聚类分析中基于划分的经典算法,具有良好的简捷性和较强的适应性,可以对多种数据类型进行聚类分析。同时,由于其具有可伸缩性的特点,也可用来对大数据集进行有效处理。因此,对k-均值聚类算法的改进工作至今仍是聚类算法研究领域的一个热点。该算法主要的问题在于聚类数目无法确定,这直接影响聚类的效果。此外,聚类结果过度依赖初始中心点的设置,不同的初始中心点对于聚类结果的稳定性影响很大。本文针对k-均值算法的这些缺点作了一定的改进。首先,本文介绍了聚类分析的基本背景,简单分析了当前聚类分析的发展及算法现状,指出优秀的聚类方法应具备的条件,并列举了聚类分析的典型算法。其次,本文就聚类分析的经典k-均值算法做了较全面的介绍,包括算法的实现,算法的优缺点等。通过与当前流行聚类方法的比较,指出了k-均值算法关于最佳聚类数确定的明显不足,进而提出了改进k-均值算法,能较好确定最佳聚类簇数,使k-均值聚类算法的适用性和有效性有一定程度的提高。接着,针对于k-均值算法关于初始中心点选取的另一不足,进行了改进工作。分析了较流行的几种改进方法,但发现其都采用了随机选取的方法,实质上还是无法避免聚类效果不稳定的情况。本文提出了与之不同的改进方案,基于数据的特征进行初始中心点选取,经过实验,所选取的初始中心点能有效减少聚类算法的迭代次数,提高聚类算法的效率,同时聚类迭代次数以及聚类结果具有较好的稳定性。最后,针对k-均值算法的差异度量原理,提出了基于权重值改进的聚类方法。区别对待不同维度的数据,实现了不同维度的属性对于聚类结果不同的影响程度,实验结果表明,聚类的准确率有所改善。同时,改进工作结合了最佳聚类簇数确定及初始中心点优化的方法,使算法从类簇数目的确定到最终获得聚类结果的“自动化”,提高了实用性。由于聚类过程重用了确定类簇数目时的数据,有利于保持k-均值算法的高效性。通过对标准数据集进行实验,证实了改进的算法提高了聚类结果的准确率,并且表现出了较理想的稳定性。该算法的新意在于数据处理方面,通过指标分析,确定了最佳聚类簇数和初始中心点,同时通过权重值的调整,区分了不同维度属性的重要性,避免了相似度的简单度量。通过实验数据可看出,只需一次聚类过程就可得到较优的聚类结果。
其他文献
农村的发展事关我国社会主义的大局,为了进一步推进农村改革,维护农村社会的繁荣发展,中央决定下大力气整顿城乡的建设用地,并从长远的角度提出了要建立统一的用地市场。然而
“城管”,是“城市管理行政综合执法”的简称,是中国内地城市管理中负责综合行政执法的部门,是为了解决执法混乱、执法重复等问题而进行的一大改革和创新。真正意义的“城管
该项目来自于本人实习期间所在的公司汤森路透(北京)。作为一家信息提供商,汤森路透所提供的信息质量和信息服务是至关重要的。在如今的信息时代,人们已经被信息的洪流所包围
政府推出村镇银行制度的初衷是为了发展农村金融市场,村镇银行在改善农村金融贷款难局面、农村金融创新、农村经济转型等方面具有重要的作用。政府将村镇银行的贷款投向限定
进入21世纪以来,随着全球计算机和信息技术的发展,整个人类社会发生了巨大的变化。无论是人们的生活方式、学习方式、交往方式,还是工作方式都变化很大,同上个世纪不可同日而
目的:评价血浆NT-pro BNP及左心室重量指数对老年左心室射血分数正常心力衰竭(HFNEF)患者的诊断价值。方法:选择2014年1月至2014年12月于吉林大学第一医院心内科诊断为心功能不全
绩效评价的含义就是对包括政府部门、企业等单位部门管理的实际业务等各项工作的业绩、成绩等所做出的力求达到最公正和客观的评价,在本论文中所述的绩效评价,特指市局对各县(市
近几年来,在音乐创作领域中的影视音乐,已经成为了新兴体裁的一种,影视音乐形式是崭新的,它不仅仅是音乐自身魅力的展示,而是影视作品融入了多元的创作思维与创作理念之后,对影视作
作为传统制造型企业,锦晟机床公司近几年的经营状况不容乐观。公司目前的主要产品是中低档数控机床和普通机床,这部分产品的市场竞争激烈,利润空间很小;而市场需求量较大的高中档
作为政府的一项重要职能,基本公共服务既是社会发展程度最为直接的“指示器”,也是深化体制改革,实现经济社会协调发展的重要政策措施。政府职能的有效发挥离不开财政的支持,我国