论文部分内容阅读
数据挖掘是一个能从大规模数据中发现知识的强大技术。聚类分析作为数据挖掘中的一个基础工具,已经被广泛应用于模式识别、图像处理、空间数据分析、文本分类和信息检索、市场分析等众多领域。随着计算机的普及和互联网的不断发展,数据量越来越大,数据的空间分布中大多包含多种不规则形状的簇,比如地理信息数据、医学图像数据、农业科学数据等,这对聚类分析提出了挑战。传统的聚类算法通常不能很好地挖掘任意形状的簇,近年来,挖掘任意形状簇的研究成为聚类分析领域的一个研究热点。为了更有效地对包含有任意形状簇的数据进行聚类,本文对现有的聚类算法进行分析和研究,提出了两个能挖掘任意形状簇的聚类算法CMSPC、CFDPm。本文提出的CMSPC算法是为了提高在包含任意形状簇的数据集上的聚类质量。CMSPC算法基于点与簇内多点的相似性,对于距离在截断距离之内的两个对象,考虑其中一个对象关于另外一个对象所在簇的归属度,对满足一定归属度的临时簇进行合并。CMSPC算法基于点与簇内多点相似的特点使得聚类结果与簇形状无关,同时能够提取出异常点。本文提出的另外一个聚类算法CFDPm是新型聚类算法CFDP算法的一种改进算法。在多峰簇数据集中,CFDP算法会因簇中心点的选取不准确而导致聚类质量的下降。本文通过综合考虑聚类结果中簇之间的距离、簇内距离、合并两簇后对于整体内部评价指标DBI的影响来有条件地对簇进行合并,从而改善因选择簇中心点失效而带来的聚类质量下降的问题。为了验证本文提出的两种聚类算法的有效性,我们在多个基准数据集上进行了聚类实验。实验结果表明两点:一、CMSPC算法可以对包含任意形状簇的数据进行较好的聚类,同时识别出异常点,具有较高的聚类质量。二、CFDPm算法能够克服CFDP算法因簇中心选取不准确而导致的聚类质量下降的问题。