基于遗传算法的K-means聚类方法的研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:ren_sir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是随着信息技术不断发展而形成的一门新兴的交叉学科,是信息处理和数据库技术领域的前沿研究课题。聚类分析是数据挖掘的一个非常重要的研究分支。聚类是一种无监督的分类方法,目标是在没有任何先验知识的情况下,将数据集划分成不同的类,使得不同类中的对象尽可能相异,相同类中的对象尽可能相似。K-means算法作为聚类分析中的经典算法现已被广泛应用在商务、市场分析、生物学、文本分类等领域。K-means聚类算法具有较强的局部搜索能力,但是对初始聚类中心敏感,容易陷入局部最优,影响了聚类结果。而遗传算法是一种高效的全局搜索方法,它的局部搜索能力较差。本文将K-means聚类算法与遗传算法相结合,互相取长补短,提出了一种基于遗传算法的K-means聚类算法(KBGA),并通过实验验证了算法的有效性。本文工作主要体现在以下几个方面:首先,详细介绍了K-means聚类算法,分析了K-means聚类算法的优缺点,并在此基础上,提出了解决缺点的方法。其次,介绍了数据挖掘中的一个重要算法——遗传算法。对遗传算法的概念、组成、应用流程、应用中的问题等进行了详细描述。再次,提出了一种改进的遗传K-means聚类算法(KBGA)。由于传统的K-means算法对初始聚类中心非常敏感,本文提出了一种基于相似度的最小最大原则的方法来选取初始聚类中心,并提出了一种相应的改进的K-means聚类算法(IKA)。另外由于K-means聚类的初始聚类数K的选择也是是影响聚类的一个重要参数。为了获得高精度的聚类结果,基于遗传算法和K-means算法的特点,本文提出了一种基于遗传算法的求K值方法,从编码方法、适应度函数的构造、选择算子、交叉算子和变异算子的设计等方面进行了改进。最后,为了测试本文提出的聚类算法的性能,本文通过实验对两种算法的聚类结果进行比较,实验结果表明本文算法能够有效地解决聚类问题。
其他文献
信息能力一词最早是由美国信息产业协会主席Paul Zurkowski在1974年美国图书情报学全国委员会上所提交的一份协议书中提出的。信息能力是国家、地区、城市、社会组织等的综合
本文总结了新型冠状病毒肺炎患者隔离期间常见的心理特点,包括恐惧感、焦虑感、孤独感、悲观感,并初步探讨了相应的中西医结合护理对策.
共享服务中心模式能够增强集团型企业的管控能力、有效的降低企业经营成本,提高运营效益,以及提升企业的服务品质。随着共享服务中心逐渐成熟,我国一些像中兴通信、华为、中国移动、平安集团一些大型企业集团积极的开展共享服务中心实践。然而,共享服务中心的建设在寻求新的升级突破。信息共享服务中心是共享服务中心不断发展,进行职能全覆盖,不断的深入与创新,注重增值服务流程的挖掘,利用规模效应优势由当初的事务处理中心
故事是孩子最易触摸,最易理解,最愿探究的区域,故事最能诠释孩子的天性——童心.从学生、班级、学校三个层面开展故事特色活动,用孩子的视角去影响孩子,让孩子成为孩子.通过
随着近年来产业升级和技术革新,交通运输业正向着多元化、信息化、智能化、国际化方向发展,未来对高校培养的交通运输类人才有了新的要求.新工科作为新时期我国工程教育改革