论文部分内容阅读
在信息时代的今天,随着数据量的快速增长,如何从海量数据中高效地挖掘出有用的信息变得越来越重要。空间co-location模式表示在空间中存在若干空间特征,不同特征间的实例在空间中频繁关联。挖掘空间co-location模式是空间数据挖掘的一个重要任务,目前人们已对co-location模式挖掘进行了大量的研究,获得了不少的研究成果。但无论是对确定数据还是不确定数据进行挖掘,传统算法的时间和空间效率均不高,因此,寻找一种时间和空间效率高的挖掘方法,一直是人们的共同奋斗目标,为此也提出了大量的改进算法。 尽管如此,现有算法对实例分布的密集度和数据量还是非常敏感,只要实例密集度略有上升,或数据量稍有偏大,算法的时间和空间资源消耗就会骤然提高。更何况,在现实生活中,实例的分布向来就是不是均匀和稀疏的,相反,它们的分布更趋于不均匀和局部密集,同时数据量也是非常大的。在这种情况下,现有算法在计算局部的密集区域时无疑要耗费大量时间和空间,而且这种耗费往往也是不必要的。因此,只要我们能抓住这个问题关键,把算法在挖掘局部密集区域的时间和空间复杂度降下来,必能从根本上解决算法的时间和空间效率问题,极大地提高挖掘算法的总体效率,这将具有重大的研究意义和应用前景。 为了有效地提高现有算法的时间和空间效率,特别针对实例在局部或全局区域中呈高密集度分布这一关键问题,本文提出了网格微分算法。大量实验证明,该算法能有效地解决传统算法存在的关键问题,在时间和空间效率方面均获得良好的效果,并有效地解决现实生活中的相关问题。内容如下: 首先,分析空间co-location模式挖掘的研究现状,概括其研究内容及成果,介绍空间co-location模式挖掘的相关定义。 其次,分析传统算法存在的问题,网格微分算法产生的现实背景、基本思想、理论依据、和实现方法。 随后,系统地提出了网格微分算法(包括网格4微分格算法和网格9微分格算法),详细介绍算法的基本思想和实现过程。对传统的全连接算法和多分辨剪枝(网格)算法,以及本文提出的网格微分算法,在时间和空间复杂度方面进行了深入的理论分析、比较、和论证。并对网格微分算法的准确率进行了理论分析。 第四,分别对合成数据和真实数据进行实验,验证了网格微分算法的高效性,分析各参数以及特征实例分布情况对算法性能的影响,验证了网格微分算法的优缺点。此外,为进一步验证网格微分算法面对大数据量时所具有的优势,展开了对大数据量进行实验。 第五,将基于网格微分算法的空间co-location模式挖掘方法应用到三江并流项目中,挖掘出了三江并流区域植物间的相互依存关系,为用户提供决策支持。 第六,提出了对算法进行选择的理论与方法,使得用户能够根据这些理论及方法在传统算法及各种网格微分算法之间权衡利弊,作出科学选择。 最后对本文工作做简要总结,指出其不足及进一步的研究方向。