论文部分内容阅读
随着遥感技术、地理信息系统和全球定位系统为代表的空间信息技术的飞速发展和广泛应用,产生了大量包含位置信息的空间数据。空间数据挖掘就是从大量空间数据中挖掘有趣的、事先未知却潜在有用的知识和模式的过程。本文研究的空间co-location模式挖掘就是在大量空间数据中发现空间特征集合,这些特征的实例频繁出现在彼此的邻域中,互为邻居。作为一种重要的空间数据挖掘任务,空间co-location模式挖掘研究在生态学、环境保护、公共安全、公共卫生、城市规划、交通运输、基于位置的服务等领域得到广泛应用。由于空间数据同时存在关联性和异质性,面对数据的多样性及实际应用需要,本文基于空间区域划分,从两个方面将模式在空间分布的特性引入空间co-location模式挖掘,探索均匀co-location模式挖掘、频繁均匀co-location模式挖掘、基于区域重要性的高效用co-location模式挖掘及并行挖掘算法。主要研究内容与贡献归纳如下:1.针对基于参与度的频繁co-location模式挖掘的传统方法,忽略模式在空间的分布特性,仅仅考虑模式频繁性的不足,以及模式熵的方法存在区域划分单一、难以设定阈值的问题。讨论了空间区域的网格划分和聚类划分及具体实现方法,定义模式的均匀系数描述模式在空间的分布特性。在此基础上,提出均匀空间co-location模式挖掘问题和挖掘算法。在合成及真实数据上实验,评估了均匀空间co-location模式挖掘算法,并与基于参与度度量的传统方法和模式熵方法进行了比较。2.提出两个策略,在挖掘co-location模式的过程中同时考虑模式的频繁性和模式实例在空间的分布均匀性,定义了频繁均匀和加权均匀模式。策略1是在频繁模式的基础上进一步进行均匀模式挖掘,策略2是综合参与度与均匀系数这两个参数,定义加权均匀度作为一个新的兴趣度量挖掘加权均匀co-location模式。在这两个策略中直接和间接使用模式参与度的反单调性,在候选模式生成过程中引入剪枝技术。合成和真实数据集上的实验表明策略1可以有效地精简传统频繁模式,策略2挖掘出的加权均匀模式有效地综合了模式的频繁性和均匀性,更有意义。3.考虑空间区域的重要程度,将区域效用转化为实例效用,给出了高效用co-location模式挖掘的兴趣度量的形式化定义。提出基于空间区域重要性的高效用co-location模式的挖掘问题和基本算法。为减少计算消耗,将空间区域按效用值由高到低排序后,给出了带有剪枝策略的改进算法。在合成和真实数据集上评估了基于区域重要性的高效用co-location模式,并与传统co-location模式挖掘结果进行了对比。实验还评估了基本算法和改进算法的效率和可扩展性。4.针对单一计算机受限于内存容量和计算能力,无法有效地对大数据集进行空间空间高效用co-location模式挖掘。基于MapReduce并行编程模型,提出空间高效用co-location模式并行处理框架和算法。合成和真实数据集上的实验表明在小数据集下,当距离阈值较大,效用参与度阈值较小的时候,并行算法的效率优于串行算法。此外,并行的方法能够处理大数据,并且具有高可扩展性。