论文部分内容阅读
随着空间数据获取技术的快速发展,空间数据量急剧增加。为了充分地利用空间数据库中的资源,在大量的数据中获取有价值的信息,提出了空间数据挖掘技术。空间数据挖掘技术可以帮助人们理解空间数据,获取空间数据之间的内在关系。文中对空间数据库以及空间数据挖掘方面的基础知识——包括空间数据库的数据结构、数据模型、索引技术,以及空间数据挖掘的基本步骤、方法等进行了详细的介绍,作为进行空间聚类研究的理论基础。聚类分析是空间数据挖掘的一个重要的研究方向,它通过度量空间数据之间的相似性将空间数据库划分为不同的簇或类,使得同簇中的对象尽可能相似,而不同簇之间的对象尽可能不同。聚类分析在现实生活中用途广泛,可以用在选址、客户群分类等方面,帮助投资者进行决策,并带来尽可能大的效益。因此,聚类具有重大的研究意义。目前,已经有许多比较成熟的聚类算法,如DBSCAN算法、CURE算法、CLARANS算法等。这些算法是空间聚类的经典算法,但仍在某些方面存在一定的问题。本文的研究重点就是在已有算法的基础上,对算法进行改进,以提高算法效率。本文针对普通聚类和带障碍约束的聚类,分别提出了一种改进算法。算法1:对DBSCAN算法的改进。DBSCAN算法需要判断每个对象是否是核心点,这种判断会占据大量的I/O开销,是限制算法效率的瓶颈。本文的算法不需要对每个点进行核心点判断,算法在寻找连通区域的过程中,每次循环选取一个没有聚类标识的点:如果这个点是核心点,并且其核心区域内的点已经有其他的聚类标识,则将该点及其核心区域的点的聚类标识设置为其中的最小值;若该点不是核心点,则选择下一个点继续判断。这种算法不仅大大减少了需要判断的核心点的数量,而且在寻找连通区域的同时直接将聚类合并,会大大提高算法的时间效率。算法2:基于数学形态学的带障碍约束的空间聚类算法。该算法主要借鉴数学形态学聚类—MMC算法的基本思想,在此基础上加入了对障碍约束的处理。该算法与DBCluC算法不同,不需要通过每两个对象的连线是否与障碍物相交来判断两对象是否属于同一个类,而是借助于结构元素,仅仅对受障碍物影响的对象(即障碍物附近的点)进行判断。从数据点集中选取一个点作为结构元素的圆心进行膨胀运算,若结构元素与障碍物相交,则将位于圆心的点与该点膨胀运算所包含的点分别连线,对于连线与障碍物相交的点,将其flag值设为false,说明该点位于障碍物的另一侧,与圆心点不属于同一个连通区域;对于连线不与障碍物相交的点赋予与圆心位置的点同样的聚类标识。经过分析,算法的效率优于其他算法。在文章的最后,进行了数据实验,进一步验证了算法的正确性和有效性。本文对空间数据库、空间数据挖掘、空间聚类技术进行了探讨,一步一步深入,最后提出了改进的聚类算法。在后续的研究工作中,作者需要阅读大量的聚类技术方面的书籍及文章,提出更快、更易于理解的算法,并应用在实际的生产、生活中,辅助决策者做出正确的决策,获得更好的效益。