论文部分内容阅读
随着空间数据获取技术的快速发展,空间数据量急剧增加,空间数据库中很多内涵的知识和规律需要挖掘。聚类分析是知识发现的一个重要方法,要求聚类算法效率高、需要的参数能自动确定或用户易确定。为此,本文主要围绕如下3个方面展开研究。 1.分层聚类方法与应用 通过多次尝试、比较,对五种距离的分层聚类算法进行了性能总结;提出按照离差分析方法的思想,进一步验证聚类结果的正确性,大大提高了算法结果的有用性;改进的分层聚类方法对数据提前进行了预聚类,运算速度大大提高,能同时对离散和连续变量进行聚类,能自动选取聚类的数量,对海量的数据进行分析处理。 2.k-means聚类方法与应用 提出了利用最优化尺度变换方法,对分类数据变量进行离散化处理,所有的变量统一处理;提出了利用多次随机取样的算法,并在样本上利用分层聚类方法判别最佳聚类的类别数量,并充分考虑数据的内涵及其分布特点,使选取的初始聚类中心更有代表性;在此基础上,提出了改进的k-means算法。由算法分析和实验结果可知,对k-means算法的改进在理论上是合理的,在实践上是可行的,在一定程度上提高了聚类结果的稳定性,减小聚类结果对初值的依赖。 3.基于聚类的空间数据挖掘系统设计 提出了一个基于聚类的空间数据挖掘系统的框架,从系统设计目标、系统设计和系统实现3个部分展开研究,采用模块化设计的思想,将系统设计划分为数据访问、聚类、用户交互和知识库管理4个模块:通过系统的实现,把本文研究的聚类方法集成在一起,为基于聚类的空间数据挖掘方法与应用提供技术支撑。 总之,研究基于聚类的空间数据挖掘技术,一方面可使GIS查询和分析技术提高到发现知识的新阶段,另一方面从中发现的知识可构成知识库用于建立智能化的GIS系统,为决策者提供有价值的知识,带来不可估量的效益。因此基于聚类的空间数据挖掘方法与应用研究具有重要的理论意义和实用价值。