论文部分内容阅读
空间数据挖掘是指从包含空间信息的数据库中抽取隐含的知识、空间关系或有意义的特征模式。它在理解空间数据、获取空间与非空间数据的内在关系上具有重要意义。空间聚类分析是空间数据挖掘中一个重要的研究方向,它是按照某种相似性度量值,对空间数据集中的数据对象进行归类和标识成簇,使得同簇中的对象尽可能相似,而不同簇间的对象彼此不相似。空间聚类分析既可作为独立的空间数据挖掘工具,又可作为其它方法的预处理方法,目前己经应用在地理信息系统、遥感、医学图像处理、环境研究等领域,具有重要的实用价值。目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。
该研究对聚类算法的发展现状作了介绍,对现有的聚类算法作了深入的研究,并对其优缺点进行了比较分析。通过对一种基于密度的聚类算法DBSCAN进行分析,针对其 I/O 开销和内存消耗大的缺陷,提出了一种基于可达核心点的聚类算法DRDBSCAN。该算法主要思想是:选择数据库中无任何标识的点进行核心点判断,围绕核心点生成源簇,再对含有共享点的源簇不断合并,从而得到最终结果。通过上述思想,该算法减少了 DBSCAN 算法中需要查询的点的数量,从而克服了DBSCAN 算法 I/O 开销和内存消耗大的缺陷,提高了 DBSCAN 算法的聚类效率。
利用 VC++开发工具实现该算法,并从聚类质量和效率两方面对该算法进行了测试。实验结果表明,本算法具有良好的可扩展性,可以高效地发现任意形状的聚类,不受“噪声”的影响。