论文部分内容阅读
数据挖掘是信息处理和数据库技术领域的前沿研究课题,是致力于数据分析和发现数据内部蕴含知识的技术。聚类分析是数据挖掘领域中的重要技术之一,是一种数据划分的重要手段和方法:聚类算法也是数据挖掘,模式识别和机器学习等方向的重要内容之一。聚类的应用非常广泛,在市场营销、金融、生物学、地质学和机器学习中都有着重要的作用。
本文首先对聚类分析的概念和理论基础进行了阐述;其次重点对k-means聚类算法进行了分析和研究,k-means聚类算法是一种基于划分的方法,它的优点是算法简易、速度快、扩展性好、适用于预处理大规模数据;但是算法也存在不足之处,如算法需要指定聚类的个数和初始聚类中心,还有算法对初始聚类中心的选取依赖性很强,如果初始聚类中心选取不当容易陷入局部最优解等;并且算法对异常数据敏感,如果初始聚类中心中存在异常数据,聚类的最终结果距离正确的结果更是相差甚远。文章还对聚类过程中的异常数据做了全面的分析,把异常数据总结分为了两大类,给出了异常数据的确定规则,在最优二叉树的基础上实现了异常数据的剔除算法,并将其应用于k-means聚类算法的初始中心的选取上,可以在剔除异常数据的同时选取比较有代表性的数据作为初始聚类中心。文章的最后通过matlab编程对改进的算法进行了数值实验分析,实验结果表明算法能够有效的发现并剔除异常数据,选取具有代表性的数据作为初始聚类中心。