论文部分内容阅读
数据挖掘就是从海量数据中提取知识,又被称为数据库中的知识发现。它是一个跨学科的新兴研究领域。聚类分析是其中的一个重要分支,它研究数据间逻辑上或物理上的相互关系,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类。本文首先介绍了数据挖掘的基本概念、存在问题及发展方向。其次介绍了聚类分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的聚类算法。基于密度的聚类算法是本文的重点研究对象。研究表明,大多数基于密度的聚类算法需要输入初始参数,参数通常由用户根据经验给出,这往往是困难的。且密度参数通常简单的将聚类分为高低密度两种,无法反映整体数据的分布特点。为了解决此类算法面临的问题,本文提出一种基于密度与网格聚类算法相结合的自适应式聚类算法,它首先对数据进行网格化,然后分析网格的密度分布,从而自适应的得出一系列密度区间,这些区间的划分进而作为聚类的参数。这样的区间划分不再是简单的高低密度分界,而是反映了数据分布的特点。数据挖掘与科学研究的结合是近来新兴的研究课题,在很多方面都有值得研究的地方。大规模科学数据具有数据量大、特征复杂的特点,在对其进行处理时,往往使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学数据挖掘势在必行。本文对科学数据挖掘项目及其科学仿真数据进行了介绍,并且将所提出的自适应式网格密度聚类算法应用于科学仿真数据。并对聚类结果进行聚类特征的分析提取,提取的聚类特征表示了数据的整体物理变化过程。在本文的最后对全文内容进行总结,并展望了数据挖掘进一步研究和应用的方向。