论文部分内容阅读
空间数据挖掘也叫大规模空间数据库知识发现,是指对空间数据库中隐含的知识、空间关系或其他非显式的模式的提取。由于空间数据库固有的海量性特点,空间数据挖掘面临的主要挑战是研究高效的空间数据挖掘技术。空间聚类是空间数据挖掘中一项关键技术。
本文以数据库管理系统中集成空间聚类挖掘为主线,研究基于密度的聚类挖掘中的效率问题。分别考察了如下领域:SQL语言空间聚类扩展、多查询优化以及多核并行算法。本文主要贡献如下:
1.提出了参数可变的DBSCAN处理算法。分析了DBSCAN算法中Eps和MinPts的九种变化情况,提出了S-DBSCAN和E-DBSCAN两类处理算法,E-DBSCAN算法中提出了两两簇合并的方法,该方法适用于低维空间数据。在标准测试数据集SEQUOIA2000上的实验结果表明,S-DBSCAN在1-noise/n比率为0.11,0.45,0.88的情况下,相对于DBSCAN分别获得了85.41%,49.442%,12.9%的性能提升,E-DBSCAN算法也较好地提高了计算性能。
2.基于SQL2008语言标准提出了支持空间和非空间数据的聚类扩展语句Cluster-by。定义了Cluster-by的语法与语义。从对数据进行分组的角度来看,它是一类模糊的Group-by。该Cluster-by提供了对空间以及非空间数据的支持,对多个字段进行聚类的情况下,使用权重以定义距离函数。本文在PostgreSQL8.4中实现了该语句。
3.提出了Cluster-by使用的代价模型,构建了DBSCAN、S-DBSCAN和E-DBSCAN算法相应的代价函数。代价模型用于当数据库处理多个不同的聚类请求时,在DBSCAN、S-DBSCAN和E-DBSCAN算法中选定其中代价最小的一个。实验结果显示在California的兴趣点数据集上,当S-DBSCAN算法平均执行时间约为DBSCAN算法的12.5%时,代价函数EFS-DBSCAN的平均误差仅为12.18%。
4.实现了一种多核并行DBSCAN算法MC-DBSCAN。通过把DBSCAN算法中regionQuery计算放于ExpandCluster之前进行并行计算。在此基础上,构建了适合在低维空间数据上聚类的内存空间索引CellIndex。实验结果显示在两个Intel Xeon E5506 CPU共8核Dell PowerEdge R510服务器上,8个工作进程的MC-DBSCAN算法带来5.4倍的加速比。
上述工作应用于全国商业兴趣点数据集,在VegaGIS3.0平台上设计了空间数据挖掘扩展VegaMinerPOI,分析了空间聚类挖掘所发现的新的地理区域。