论文部分内容阅读
随着计算机的快速发展,计算机技术已经被用于电子商务、商业管理、科学研究、政府办公等各个领域。特别是在Internet技术日趋成熟的今天,在互联网上存在大量甚至海量的数据,人们为了获取对自己有用的信息和知识,就必须解决信息过量与知识贫乏两者之间的矛盾,因此诞生了一门新的学科——数据挖掘。数据挖掘作为一门新的学科,有其特有的步骤和方法。数据挖掘是面向应用的,因此数据挖掘方法的优劣主要取决于在实际应用中的效果。数据挖掘的应用非常广泛,特别是经济领域。数据挖掘已经成为当今社会研究的热点。数据挖掘的基本方法包括分类、聚类、回归分析、关联规则、特征、变化和偏差分析。本文主要是基于数据挖掘的聚类算法的研究,首先阐述了当前数据挖掘的现状,并具体介绍数据挖掘的基本概念、基本方法和应用领域。其次,介绍了聚类的几种常见的聚类算法。再次指出了层次聚类算法与层次分析法的联合应用和一种基于云模型下的层次聚类并通过实验分析来验证。最后通过UCI数据进行试验分析和对比,验证本文提出的算法的有效性和可行性。本文的主要研究内容如下:(1)为了修改层次分析算法中不满足一致性的判断矩阵,提出了一种基于层次分析法(AHP)下特征根法(EM)的改进。该算法是在尽力保留专家意见的同时,对不满足一致性的判断矩阵元素进行适当修改和补充。之后给出了层次聚类算法与层次分析法的联合应用,以弥补单独应用层次分析法所带来的不足之处。(2)为了将层次聚类算法应用到模糊集合理论中并且可以对大量的高维数据进行属性的分析和聚类,提出了一种基于云模型下的层次聚类算法。云模型结合了自然科学规律的随机性和模糊性,本文将层次聚类算法成功应用到模糊集合理论,并给出了隶属度的判定方法。实验结果表明,云模型下的层次聚类具有很好的聚类效果,且随着数据量的增大与原始的层次聚类算法复杂度要低很多,这样可以做大数据的聚类。