论文部分内容阅读
随着人类迈入到21世纪,空间数据挖掘技术有了极大的发展。在空间的数据的聚类分析算法中,基于密度的 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)和 St-DB SCAN(spatial-temporal Density-Based Spatial Clustering of Applications with Noise)算法,因其具有对数据库中数据点顺序不敏感并且能发现任意形状簇的优点,已被学者用来对昆明市出租车GPS数据的聚类,把握居民的出行规律,达到解决昆明市居民出行难的问题。但是DBSCAN算法存在对于大数据量聚类时,运行时间较长的问题。对于St-DBSCAN算法也存在处理空间对象分布倾斜时,算法的运行时间较长和聚类效果不理想的问题。本文基于这两点不足展开了相关研究工作。具体研究工作如下:(1)提出了按照象限划分方法改进DBSCAN算法。该方法首先以核心点为原点,将核心点的邻近点划分成不同的象限,然后根据每个象限区域内邻近点的点的个数和邻近点的是否偏离核心点,以每个象限点的重心点为代表性的点,完成聚类簇的拓展操作,改进了 DBSCAN 算法(QD-DBSCAN(Quadrant-Division Density-Based Spatial Clustering of Applications with Noise)算法)。(2)在本文中,首先通过对空间对象分布倾斜情况做了总结,得出空间对象分布会出现三种密度倾斜的情况,即核心点密度倾斜,边界点密度倾斜和噪声点密度倾斜。然后针对每一种密度倾斜出现的情形,以重心点转移为基本思想,提出了对应的改进方法,并描述了改进后的St-DBSCAN算法。(3)为了检测QD-DBSCAN算法和改进后的St-DBSCAN算法的时间性能和聚类效果,本文采用python语言实现了 QD-DBSCAN算法和改进后的St-DBSCAN算法,并在算法的时间效果和算法的聚类效果方面进行了比较,最后对实验的结果做了分析。通过实验表明:改进后的St-DBSCAN算法和QD-DBSCAN算法的时间性能和聚类效果方面有一定程度的提升,这些改进方法能够运用于实际的聚类中。