基于遗传算法的K-MEANS聚类改进研究

被引量 : 0次 | 上传用户:henrychen999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-means算法是聚类算法中主要算法之一。它是一种基于划分的聚类算法。该算法随机选取k(k为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。该算法有它固有的不足:算法本身是迭代的,且不能确保它收敛于最优解,它常常达到局部最优而得不到全局最优解;算法在进行聚类以前要求知道K值,这对于没有经验的用户来说很困难;初始聚类中心的选择对于最后的聚类结果有很大的影响。遗传算法是基于生物进化的概念设计了一系列过程来达到优化的目的。这些过程包括:基因组合、交叉、变异、自然选择。在这些过程中,通过“优胜劣汰”的原则来淘汰掉解较差的基因,使得解朝着好的方向发展。遗传算法从一组初始可行解出发在只需要目标函数这一信息的条件下实现对可行域的全局高效搜索并以概率1收敛到全局最优解,这种良好的特性使得遗传算法成为组合优化和函数优化的有力工具,并成为计算智能领域的研究热点。本文首先对聚类分析的遗传算法进行了研究,讨论了聚类问题的编码方式和适应度函数的构造方案与计算方法,分析了不同遗传操作对聚类算法的性能和聚类效果的影响意义。然后对k-means算法中初值的选取方法进行了分析和研究,提出了一种基于遗传算法的k-means聚类改进(混合聚类算法),在基于均匀采样的小样本集上用k值学习遗传算法确定聚类数k,用遗传聚类算法的聚类结果作为k-means聚类的初始聚类中心,最后在已知初始聚类数和初始聚类中心的情况下用k-means算法对完整数据集进行聚类。由于遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显著特点是隐含并行性和对全局信息的有效利用的能力,所以新的改进算法具有较强的稳健性,可避免陷入局部最优,大大提高聚类效果。实验采用标准数据集来测试该算法,并且和k-means算法的结果进行了比较,证实了该算法的有效性,并具有避免早熟和收敛较快的特点。
其他文献
原发性肝癌分期方法的比较研究 目的 评估原发性肝癌五种分期方法的预后价值,包括三种临床分期方法:Okuda分期、CLIP(Cancer of The Liver Italian Program,CLIP)评分、LC
目的:研究阜新市阜蒙县近8年先天性非综合征性唇腭裂(nonsyndromic cleft lip and/or palate, nsCLP)的发病情况并分析其发病因素,为唇腭裂的预防与治疗提供依据。方法:调查
地面塌陷是珠江三角洲城市地质灾害的主要类型之一。近年来,广州市经济高速发展,城市化进程加快,人类活动剧烈,地面塌陷灾害尤其是人为工程塌陷灾害频繁发生,灾害损失呈不断
知识经济的发展给教育带来新的机遇和挑战,而人的创新精神和实践能力是教育的核心,教师是教育的灵魂,教师素质的高低将决定未来教育的成败。为了有效地提高教师的整体素质,促进学
引水式电站往往具有较长的有压隧洞。当水力机组负荷在较短时间有大幅度变化时,有压隧洞内可能会产生很高的水击压力。为避免这种现象的发生,需要在电站的水道系统中设置调压井
本论文主要以在汉语史上占重要地位的《朱子语类》的量词为考察对象,将共时研究和历时研究相结合,静态描写和分析归纳相结合,定量分析和定性分析相结合,共性研究与个性研究相结合
建筑物区分所有权,作为现代一项重要的不动产所有权形式,已为许多国家和地区的民事立法所确立。德国法上称之为“住宅所有权”,法国称之为“住宅分层所有权”,瑞士称为“楼层所有
我国经过住房制度改革,已经改变了过去由国家或集体单独拥有建筑物所有权的单一权利主体形式,出现了国家、集体、公民共同拥有建筑物的众多权利主体形式,区分所有建筑物得以大量
链篦机-回转窑氧化球团烧结过程是一个涉及到传质、传热和复杂化学反应的工业过程。从控制角度来看,球团烧结过程具有非线性、分布参数、慢时变和大时滞等特性,属于典型的复杂
青少年犯罪,是当今各国共同面临的一个突出的社会问题。加强对青少年犯罪的理论研究,尤其是运用心理学理论及研究方法对犯罪青少年的心理特征加以研究,是一项十分重要和迫切的任