论文部分内容阅读
聚类分析应用研究是数据挖掘技术中一个重要的研究方向。聚类分析方法在模式识别等领域获得了较为广泛的研究与应用,但是在地质资料处理方面聚类分析方法的应用研究甚少。为了研究与探索地质资料处理的新方法与新理论,利用数据挖掘技术发现地质数据中隐含的地学模式,如地球物理模式、地球化学模式,我们进行了“数据挖掘的聚类分析在物化探资料处理中的应用研究”。研究内容主要包括:
(1)聚类分析算法研究。目前聚类分析算法在智能性、稳定性、有效性、可扩展性等方面存在各种问题。因此,在详细分析和研究了现存的各种有代表性的聚类算法的基础上,对它们的缺点、优点以及各自所适应的具体应用前提、性能进行了比较全面的对比与总结;提出了对基于划分的方法(K-Means算法)和基于密度分布函数的聚类方法(DENCLUE算法)进行整合的设想,依此来提高聚类方法智能性(实现无指导挖掘)、稳定性、有效性和可扩展性,同时给出了两种算法的整合方法。在实现整合算法的过程中,同时也对聚类对象属性(变量)进行了加权处理——基于复相关系数倒数的欧氏距离加权,其目的是通过消除对象属性间的相关性来提高聚类结果的准确性;根据两种算法的整合设想,进一步提出了一种新的聚类算法——基于密度和对象方向的聚类算法CADD(Clustering Algorithm based on Density and Direction of Objects),详细介绍了CADD算法的定义、数据结构、模型的建立、算法的具体实现与实验分析。
(2)利用CADD算法对物化探实测资料的分析研究。利用CADD聚类分析算法首次对我国银川平原地区一千多个测深点视电阻率测深曲线和我国西部某地区化探采样数据进行了聚类分析应用研究。结果标明,聚类分析方法能够有效地确定出测区内电性特征区域变化模式和化探区域内化学元素的区域分异特征模式。
通过对不同测试数据集和实测数据的聚类分析结果的分析与研究表明,改进算法的设计与实现是成功的,具有良好的可伸缩性,可发现任意形状的聚类,处理噪声数据的能力强,且具有较强的可解释性和适用性。CADD聚类分析算法能够自动确定对象的聚类数目和聚类中心,这样就避免了传统聚类算法需要用户事先给出聚类参数的困难局面和随机选择初始聚类中心造成聚类结果的不稳定;克服了聚类算法(如K-Means算法等)对孤立点数据的敏感问题,使得CADD聚类算法能够有效地应用于地质资料处理。