论文部分内容阅读
数据挖掘是随着信息技术不断发展而形成的一门新兴的交叉学科,是信息处理和数据库技术领域的前沿研究课题。聚类分析是数据挖掘的一个非常重要的研究分支。聚类是一种无监督的分类方法,目标是在没有任何先验知识的情况下,将数据集划分成不同的类,使得不同类中的对象尽可能相异,相同类中的对象尽可能相似。K-means算法作为聚类分析中的经典算法现已被广泛应用在商务、市场分析、生物学、文本分类等领域。K-means聚类算法具有较强的局部搜索能力,但是对初始聚类中心敏感,容易陷入局部最优,影响了聚类结果。而遗传算法是一种高效的全局搜索方法,它的局部搜索能力较差。本文将K-means聚类算法与遗传算法相结合,互相取长补短,提出了一种基于遗传算法的K-means聚类算法(KBGA),并通过实验验证了算法的有效性。本文工作主要体现在以下几个方面:首先,详细介绍了K-means聚类算法,分析了K-means聚类算法的优缺点,并在此基础上,提出了解决缺点的方法。其次,介绍了数据挖掘中的一个重要算法——遗传算法。对遗传算法的概念、组成、应用流程、应用中的问题等进行了详细描述。再次,提出了一种改进的遗传K-means聚类算法(KBGA)。由于传统的K-means算法对初始聚类中心非常敏感,本文提出了一种基于相似度的最小最大原则的方法来选取初始聚类中心,并提出了一种相应的改进的K-means聚类算法(IKA)。另外由于K-means聚类的初始聚类数K的选择也是是影响聚类的一个重要参数。为了获得高精度的聚类结果,基于遗传算法和K-means算法的特点,本文提出了一种基于遗传算法的求K值方法,从编码方法、适应度函数的构造、选择算子、交叉算子和变异算子的设计等方面进行了改进。最后,为了测试本文提出的聚类算法的性能,本文通过实验对两种算法的聚类结果进行比较,实验结果表明本文算法能够有效地解决聚类问题。