论文部分内容阅读
当今社会已发展成为信息化的社会。信息一般是以数据的形式存在的,数据是信息的载体。因此数据对于信息化社会是相当重要的。大量的数据存在于数据库中,需要使用一定的方法对其进行分类。其中重要的一个分支就是聚类分析。聚类分析的基本原理通俗的来说就是“物以类聚”的原理,就是将一个数据样本根据某一属性值分为相似的“类”的过程。同一“类”中对象彼此相似,而与其它“类”中的对象相异。传统聚类分析方法对“类”的划分要求较为严格,一个对象通常只能属于某一个“类”。然而在现实客观情况下,有些客观对象却具有属于多个“类”的性质,因此对其划分不能用硬性的标准,而要使用“软划分”。于是模糊理论就被引入到聚类分析中来了,使用模糊理论能够从理论上很好的支持这种“软划分”。通常情况下,聚类分析是在无监督的状态下进行的分类。如何对聚类分析中“类”的划分情况是否符合客观事实进行评价。一般来说采用的是有效性评估,即模糊聚类的有效性问题。在模糊聚类中,由于有效性问题研究不便,因此一般用最佳类别数的决策问题来对其进行替代处理。本文首先对模糊聚类有效性的研究历史、研究现状等进行了总结。然后对模糊聚类分析的有效性指标进行了深入的讨论,主要有以下三类指标:根据数理统计中方差分析提出了基于F统计量的有效性指标,能够反映类内紧密程度和类间的分散程度;为了保证分类程度更高,突出较小的统计量的影响,提出了混合统计量的有效性指标,针对多维数据情况的推广,立足于样本数据集的“类”内部统计信息和“类”外部之间的统计信息,提出了伪统计量的有效性指标。为了论证有效性指标的可行性,本文应用一组地质数据进行了详细的论证。首先运用模糊聚类分析的方法进行分类,然后分别应用多元分析中的统计量、混合统计量及伪统计量的有效性指标进行运算,对数据变化量的大小进行分别分析,以得出模糊聚类的有效性的结果。经过运用三种有效性指标的比较,判别出更合理,更贴近实际的结果。