论文部分内容阅读
数据挖掘是一种提取出隐含在大量数据中的潜在的、有用的信息并被人们识别、处理的数据库中的知识发现(Knowledge Discovery in Database)。数据挖掘技术结合了模式识别、数据库、统计学、机器学习和人工智能等多个领域的一种新兴的交叉的学科技术。数据挖掘有多个研究方向,包括分类、聚类、关联规则挖掘等。聚类分析是数据挖掘领域中的一个比较热门的研究方向。聚类分析是要达到这样一种目的,将数据对象进行划分成不同的簇使得同一个簇中的数据对象具有较高的相似度,不同簇中的数据对象的相似度较低。目前为止,聚类分析算法一般有以下五种分类:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类方法。聚类算法在商务、市场分析、生物学以及文档分类等领域有着广泛的应用。另外,聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以作为数据挖掘中的一个预处理步骤。因此,研究聚类分析算法有着十分重要的意义。K-Means算法是基于划分的聚类算法中的一个典型算法。该聚类算法的一个最大的优点就是操作简单、采用误差平方和的准则函数、对大数据集的处理上有较高的可伸缩性和高效性。但是该算法存在着一定的缺陷:首先起初需要指定k值表示聚类个数;其次它比较敏感于聚类中心初值的选取问题;第三算法也极其容易的陷入局部的最优解;最后它只能发现球状的簇。K-Means算法采取随机选取初始聚类中心,因此,一旦聚类中心选取不当,将会得到一个不合理的聚类结果。本文针对聚类算法的结果对初始聚类中心依赖性的问题,对初始聚类中心选取的方法给出了分析与研究,并针对初始聚类中心选取的方法提出了两种新的算法。本文工作主要包括:1.首先介绍了数据挖掘的研究意义与聚类分析的研究背景和研究方向。2.数据挖掘中的聚类分析算法的研究。包括现有的聚类分析算法有哪些,聚类的概念和形式描述、聚类分析中的数据类型和数据结构、数据的标准化、聚类分析的相似度度量、聚类分析中的准则函数和聚类分析的一般步骤等。3.研究了K-Means算法的基本思想和原理,同时分析了K-Means算法的优缺点,研究了现有的针对K-Means算法初值选取的改进的措施。4.针对K-Means算法对初值依赖性的缺点,给出了两种改进初始聚类中心选取的算法,主要的研究成果和内容集中在以下两个方面:(1)基于坐标旋转的思路,针对K-Means算法随机选择初始聚类中心导致聚类结果不稳定的情况,提出了一种基于坐标旋转的选取聚类中心的算法(记为KCR算法),能够很好地用于低维数据的聚类上,并且改善了随机选择初始聚类中心致使K-Means算法陷入局部最优解而得不到正确聚类结果的情况,保证了聚类结果的准确与稳定性。(2)借助密度的思想,基于平均距离的思路选择初始聚类中心,给出了KAD算法,该算法克服KCR算法的缺点,并能够使初始中心尽可能的分开,克服了多个聚类中心被选在同一个簇中的情况,提高了聚类的有效性,并进行了实验验证与分析。