论文部分内容阅读
数据挖掘是为了满足人们对数据中所蕴涵的信息和知识的充分理解和有效应用而发展起来的一门新兴技术。数据库、人工智能和数理统计是知识发现和数据挖掘的三个强大的技术支柱。发展自统计学的聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个重要的研究领域,至今已提出了大量的理论和方法,取得了丰硕的研究成果。尽管如此,聚类中还存在许多问题,尤其随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。这就要求对现有聚类技术进行改进,同时不断提出新的聚类理论和方法以适应新的应用。本文对聚类有效性问题,迭代优化聚类的初始化问题,分类属性数据聚类算法及高维数据聚类方法进行了较为深入的研究,主要内容如下:第一章简单介绍了数据挖掘技术和数据挖掘中的聚类分析的特点,详细论述了聚类有效性问题、迭代优化聚类的初始化、分类属性数据聚类方法以及高维数据聚类的研究现状,最后介绍了本文的主要研究工作成果及内容安排。第二章介绍了数据挖掘中的聚类分析,包括聚类分析的数据结构和数据类型,聚类准则的确定,聚类算法的分类,并详细论述了数据挖掘中用到的主要聚类算法,最后对聚类结果的评价方法进行了简要介绍。第三章主要研究聚类有效性函数。首先介绍了模糊聚类的划分系数与划分熵,研究了基于几何结构的聚类有效性函数,从聚类的“紧致度”和“分离度”角度出发,提出了一种新的基于几何结构的加性聚类有效性函数;研究了改进的HubertГ统计量,将其与聚类分离度相结合,提出了一种基于HubertГ统计量和分离度的聚类有效性函数。此外,研究了聚类算法的实验结果的评价,指出了现有聚类结果评价方法的不足,阐明了聚类精确度是反映聚类效率的观点,用Fowlkes&Mallows划分相似测度作为聚类精确度,来评价后续章节中聚类算法的实验结果。第四章研究了现有的迭代优化聚类的初始化方法:即采样法,距离优化法以及密度估计法,分析了它们的优缺点,提出一种新的基于距离的初始化方法,它不需要设定门限,不受数据集的顺序影响,而且对孤立点和噪声有较强的抑制,适用于较大规模数据的聚类初始化;分析了对初值不敏感的k-harmonicmeans算法,提出了模糊k-harmonic means算法,并导出了该算法在中心迭代统一框架下的描述。第五章研究了k-modes、k-prototypes和fuzzy k-modes聚类算法,通过仿真讨论了k-prototypes算法的性能;在新的差异度函数的基础上提出了一种新的