论文部分内容阅读
时空关联规则挖掘是空间数据挖掘领域最前沿的研究方向之一。随着地理信息技术的发展和地理时空数据的积累,时空关联规则挖掘已成为重要数据分析与挖掘工具,对其理论、方法和工具进行研发有很重要的学术价值和现实意义。因此,本文主要涵盖以下内容:分析关联规则挖掘中的项、项集、关联规则、支持度、置信度的概率与逻辑解释,给出其规范化定义,包括:以概率论为基础,从项集的支持度是项集对应事件的概率出发对关联规则挖掘中的项、项集和数据进行定义;根据关联规则挖掘要求数据中所有项集的支持度都可计算这一公理提出了关联规则挖掘可行性的判定定理,确定能够直接用于关联规则挖掘的数据的范畴;对总数据量、项集的支持度计数、关联规则进行定义,得到项集的支持度等于其支持度计数与总数据量之比这一推论;证明任意项集的支持度不小于其超集的支持度这一定理,即关联规则挖掘算法普遍应用的Apriori性质;以谓词逻辑为基础,根据项是谓词命题这一公理对时空关联规则进行定义。这组规范化定义及相关推论构成了时空关联规则挖掘与评价方法的理论基础。提出并实现一种适用于多种数据类型的关联规则挖掘方法。该方法以基于有限测度的支持度计算方法为核心,利用Apriori算法的基本框架实现关联规则挖掘。笔者将其实现为通用关联规则挖掘框架(General Association Rule Mining Framework, GARMF),并对适用于事务数据、空间数据以及时空数据的有限测度进行了分析,提出总数据量与支持度计数的具体计算方法,将该框架具体化为一族适用于这些数据类型的关联规则挖掘算法。对多类数据进行的时空关联规则挖掘实验表明该方法是可行且正确的。为了提高挖掘效率,对空间及时空数据的快速求交方法和关联规则增量挖掘方法进行讨论。此外,还利用该方法进行覆被轨迹提取与分析。为得到高质量的规则,对频繁项集和关联规则的主客观评价指标进行研究,提出一种顾及项与项之间可参照程度的主观近似度评价指标。以上述挖掘与评价方法为基础,设计并实现时空关联挖掘支撑系统DAPShell。该系统可以从事务数据和空间数据中挖掘时空关联规则,并且能够对挖掘得到的频繁项集和关联规则进行质量评价。