论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。计算机网络化时代,如何有效、快速地从大量数据中获取我们需要的知识成为了人们关注的焦点。数据供给能力和数据分析能力间的矛盾日益突出,迫切需要一种能够对数据进行深层次加工的自动化技术。数据挖掘技术应运而生。作为数据挖掘的一个重要分支,聚类分析引起了人们的广泛关注,它可以作为独立的数据挖掘工具或者作为其他数据挖掘算法的预处理步骤。聚类是一种无监督的分类,是人们认识社会和自然界的一种重要方法。在现实世界中,许多客观事物之间的界限往往是模糊的,对事物进行分类时就必然伴随着模糊性,由此产生了模糊聚类分析。本文重点研究了基于划分的模糊聚类算法及评估有效性的指标,取得了一定的研究成果。全文共分为五章,各章的内容分别为:第一章为绪论。本章首先介绍了论文研究的背景和意义,并指出本文的研究方向及研究成果;接着,概述了聚类分析和聚类算法;最后,给出了论文的组织结构安排。第二章重点对模糊聚类算法研究现状进行深入研究和探讨,并对模糊聚类算法研究现状进行了综述。第三章概述了几种常见聚类有效性函数,提出了一种新的聚类有效性函数。最后通过仿真实验验证了新指标的可靠性。第四章重点研究了以FCM算法为代表的基于划分的模糊聚类算法。本章首先介绍了硬C-均值聚类和模糊C-均值聚类算法;接着,提出了一种用于确定FCM最佳聚类数的HCTFCM聚类算法,用该算法聚类所得结果要优于FCM算法。最后通过仿真实验验证了新算法的有效性。