论文部分内容阅读
空间数据挖掘和知识发现是从空间数据集中提取暗含的有意义的空间信息的过程,而空间关联规则(Spatial association Rule)则是空间数据挖掘和知识发现的一个重要组成部分。空间关联规则发现过程包含了很多空间数据的分析和运算。以往的空间关联规则算法更注重空间数据的定量分析和运算,而忽视了空间的定性分析和先验性的知识推理。实际上,数据挖掘工作是一种基于知识的过程,单纯的空间数据定量分析并不适合知识模型。为了能够更好地发现空间关联规则,挖掘到的空间关联规则结果集更加合理,本文提出了用本体描述地理空间背景知识约束集,用背景知识指导空间关联规则的挖掘方法。随着空间挖掘技术的发展和大量空间数据集的积累,空间关联规则的挖掘技术越来越受关注。给定一组空间数据集,空间关联规则挖掘可以寻找在地理空间中的地理实体之间存在有某种比较高频繁空间关系。例如,某种植物和某种珍稀的动物共同存在一个地理环境中。空间关联规则不同于其他普通的挖掘方法,空间的关联规则依赖于空间中实体特有的空间属性和空间关系。因此,空间关联规则挖掘的有效性很大程度上依赖于空间数据的空间属性和空间关系的处理。例如,空间物体具有拓扑、方位和距离等各种空间关系,其中形状为点、线、面(多边形)等。因此空间数据除了具备普通数据的基本属性之外,还具备各种空间属性和空间关系。而空间中的数据因为空间环境中复杂多变的特征,即相似又相异,也就是说空间环境约束着空间物体属性和它们之间的关系,但是这种制约是非线性的、异质的。对于特定的某片区域来说,有属于它自己的约束条件,这种约束条件是与其他区域条件是区别的,有其区域特殊性。正因为这种真实空间事物的复杂性,造就了空间数据的复杂性,进而造就了对空间数据进行空间关联规则发现的困难。空间关联规则的算法现在已经提出过很多,但是得到的结果不是很如人意,其中的原因之一是忽视了空间数据集所处的空间背景知识,很少有空间约束或者输入数据所在的区域背景知识约束和指导监督空间关联规则的挖掘过程。具体说来,目前空间关联规则挖掘的主要问题在于:空间数据复杂,对挖掘过程中的数据区域背景知识关注不够,对挖掘过程中各种产生空间谓词的空间分析算法关注不够,造成在某些场景中空间关联规则发现的缺失和错误。针对以上问题,本文重点研究了以N3本体表达空间关联规则过程中空间数据和涉及的相关空间算法,在这种本体表达的基础上建立各种规则集,通过规则集对空间数据和空间算法的推理,获得到空间挖掘约束条件集,对空间关联规则挖掘过程进行指导,以达到改进空间关联规则结果集质量的目的。具体研究内容如下:(1)在详细介绍地理空间关联规则基本原理的基础上,引出了空间化的关联规则算法问题。在Apriori的基础上,对其进行空间化的处理,创建了MSOApriori算法:首先根据空间数据特征,以点、线、面(多边形)等空间数据作为处理基础对象,对这三种数据做出了统一的面(多边形)处理,得到待分析数据的面(多边形)集合;然后对面(多边形)集进行求交,将叠置分析能够求得交面的面(多边形)之间设置为纵向关系空间谓词,将叠置分析得不到交面的面(多边形)进一步空间运算得到空间横向关系空间谓词;根据面积计算空间支持度和置信度方法,依据设置的最小空间支持度和置信度阈值,滤除弱空间关联规则;最后分析了MSOApriori算法的缺点,以实际案例为据说明了无空间背景知识约束算法的种种问题,指出在缺少约束条件下发现的空间关联规则集可能不合理。(2)基于本体的基本理论和当前的本体技术,以知识的表达为切入点,针对空间关联规则发现算法MSOApriori中的问题,围绕着MSOApriori中的空间数据和空间算法,设计了本体应用框架MOSAprioriO。MOSAprioriO本体应用框架包括两类概念层级树-空间数据本体SpatialThingFeature和空间算法本体MOSAprioriAlgorithm,两类本体对象关系DataRelation和AlgorithmRelation;对SpatialThingFeature和MOSAprioriAlgorithm属性和实例进行了深入剖析。MOSAprioriO主要的设计思路就是如何表达空间关联规则中的约束关系。(3)在MOSAprioriO本体应用框架的基础上,介绍了MOSAprioriO约束的空间关联规则提取算法C-MOSAprioriO(Constraints Multi-type Object Spatial Apriori by Ontology),给出了MOSApriori Ontology的推理流程、方法和实例。本文根据MOSAprioriO建立了适合空间关联规则使用的约束规则,以MOSAprioriO与约束规则集组成地理信息背景知识库用以指导空间关联规则的提取和发现,提出了一个新的方法--基于MOSAprioriO知识库的约束下的C-MOSAprioriO;本文详细阐述了C-MOSAprioriO方法的工作原理,并就方法实现中的针对点数据的聚类分析进行了详细的约束案例分析。(4)以C-MOSAprioriO为基础开发了C-MOSAprioriO Demo原型,并对C-MOSAprioriO Demo原型进行了数据测试与结果评价;为了进行实验和评价,收集了数据和选定了评价指标;在进行了实验测试后,将C-MOSAprioriO与MOSApriori两种算法的运算效果进行了比较和分析,发现因为没有地理背景知识的支持,MOSApriori的运算后提取的空间关联规则集比C-MOSAprioriO的数量少;通过进一步的空间兴趣度计算和比较,也证实MOSApriori的关联规则兴趣度远低于C-MOSAprioriO。