地理背景知识约束的空间关联规则挖掘方法研究—C-MOSAprioriO

来源 :武汉大学 | 被引量 : 0次 | 上传用户:wh104311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间数据挖掘和知识发现是从空间数据集中提取暗含的有意义的空间信息的过程,而空间关联规则(Spatial association Rule)则是空间数据挖掘和知识发现的一个重要组成部分。空间关联规则发现过程包含了很多空间数据的分析和运算。以往的空间关联规则算法更注重空间数据的定量分析和运算,而忽视了空间的定性分析和先验性的知识推理。实际上,数据挖掘工作是一种基于知识的过程,单纯的空间数据定量分析并不适合知识模型。为了能够更好地发现空间关联规则,挖掘到的空间关联规则结果集更加合理,本文提出了用本体描述地理空间背景知识约束集,用背景知识指导空间关联规则的挖掘方法。随着空间挖掘技术的发展和大量空间数据集的积累,空间关联规则的挖掘技术越来越受关注。给定一组空间数据集,空间关联规则挖掘可以寻找在地理空间中的地理实体之间存在有某种比较高频繁空间关系。例如,某种植物和某种珍稀的动物共同存在一个地理环境中。空间关联规则不同于其他普通的挖掘方法,空间的关联规则依赖于空间中实体特有的空间属性和空间关系。因此,空间关联规则挖掘的有效性很大程度上依赖于空间数据的空间属性和空间关系的处理。例如,空间物体具有拓扑、方位和距离等各种空间关系,其中形状为点、线、面(多边形)等。因此空间数据除了具备普通数据的基本属性之外,还具备各种空间属性和空间关系。而空间中的数据因为空间环境中复杂多变的特征,即相似又相异,也就是说空间环境约束着空间物体属性和它们之间的关系,但是这种制约是非线性的、异质的。对于特定的某片区域来说,有属于它自己的约束条件,这种约束条件是与其他区域条件是区别的,有其区域特殊性。正因为这种真实空间事物的复杂性,造就了空间数据的复杂性,进而造就了对空间数据进行空间关联规则发现的困难。空间关联规则的算法现在已经提出过很多,但是得到的结果不是很如人意,其中的原因之一是忽视了空间数据集所处的空间背景知识,很少有空间约束或者输入数据所在的区域背景知识约束和指导监督空间关联规则的挖掘过程。具体说来,目前空间关联规则挖掘的主要问题在于:空间数据复杂,对挖掘过程中的数据区域背景知识关注不够,对挖掘过程中各种产生空间谓词的空间分析算法关注不够,造成在某些场景中空间关联规则发现的缺失和错误。针对以上问题,本文重点研究了以N3本体表达空间关联规则过程中空间数据和涉及的相关空间算法,在这种本体表达的基础上建立各种规则集,通过规则集对空间数据和空间算法的推理,获得到空间挖掘约束条件集,对空间关联规则挖掘过程进行指导,以达到改进空间关联规则结果集质量的目的。具体研究内容如下:(1)在详细介绍地理空间关联规则基本原理的基础上,引出了空间化的关联规则算法问题。在Apriori的基础上,对其进行空间化的处理,创建了MSOApriori算法:首先根据空间数据特征,以点、线、面(多边形)等空间数据作为处理基础对象,对这三种数据做出了统一的面(多边形)处理,得到待分析数据的面(多边形)集合;然后对面(多边形)集进行求交,将叠置分析能够求得交面的面(多边形)之间设置为纵向关系空间谓词,将叠置分析得不到交面的面(多边形)进一步空间运算得到空间横向关系空间谓词;根据面积计算空间支持度和置信度方法,依据设置的最小空间支持度和置信度阈值,滤除弱空间关联规则;最后分析了MSOApriori算法的缺点,以实际案例为据说明了无空间背景知识约束算法的种种问题,指出在缺少约束条件下发现的空间关联规则集可能不合理。(2)基于本体的基本理论和当前的本体技术,以知识的表达为切入点,针对空间关联规则发现算法MSOApriori中的问题,围绕着MSOApriori中的空间数据和空间算法,设计了本体应用框架MOSAprioriO。MOSAprioriO本体应用框架包括两类概念层级树-空间数据本体SpatialThingFeature和空间算法本体MOSAprioriAlgorithm,两类本体对象关系DataRelation和AlgorithmRelation;对SpatialThingFeature和MOSAprioriAlgorithm属性和实例进行了深入剖析。MOSAprioriO主要的设计思路就是如何表达空间关联规则中的约束关系。(3)在MOSAprioriO本体应用框架的基础上,介绍了MOSAprioriO约束的空间关联规则提取算法C-MOSAprioriO(Constraints Multi-type Object Spatial Apriori by Ontology),给出了MOSApriori Ontology的推理流程、方法和实例。本文根据MOSAprioriO建立了适合空间关联规则使用的约束规则,以MOSAprioriO与约束规则集组成地理信息背景知识库用以指导空间关联规则的提取和发现,提出了一个新的方法--基于MOSAprioriO知识库的约束下的C-MOSAprioriO;本文详细阐述了C-MOSAprioriO方法的工作原理,并就方法实现中的针对点数据的聚类分析进行了详细的约束案例分析。(4)以C-MOSAprioriO为基础开发了C-MOSAprioriO Demo原型,并对C-MOSAprioriO Demo原型进行了数据测试与结果评价;为了进行实验和评价,收集了数据和选定了评价指标;在进行了实验测试后,将C-MOSAprioriO与MOSApriori两种算法的运算效果进行了比较和分析,发现因为没有地理背景知识的支持,MOSApriori的运算后提取的空间关联规则集比C-MOSAprioriO的数量少;通过进一步的空间兴趣度计算和比较,也证实MOSApriori的关联规则兴趣度远低于C-MOSAprioriO。
其他文献
褐飞虱(Nilaparvata lugens Stal.,BPH)是水稻(Oryza sativa L.)的专食性害虫。在褐飞虱与水稻长期的攻击与反击的竞争过程中,二者形成了一种协同进化关系。水稻为了抵御褐飞虱的取食而进化出抗虫性,而褐飞虱则产生新的生物型来克服水稻抗性,水稻反过来又产生出新的抗性形式来对抗新的褐飞虱生物型。阐明水稻抗褐飞虱基因形成与进化的机制和水稻抗虫反应的分子机理,对于褐飞虱这
车联网(vehicular ad hoc network,VANET)中高效快速的数据传输对于提高道路安全性和交通效率至关重要。由于车辆高移动性和快速的拓扑变化,导致基于传统专用短程通信(dedicated short ranged communication,DSRC)的车辆与基础设施间(vehicle to infrastructure,V2I)或者车辆间(vehicle to vehicle
第一部分七氟醚吸入麻醉对急性REM睡眠剥夺大鼠痛觉过敏的影响目的:探讨七氟醚吸入麻醉是否加重急性REM睡眠剥夺大鼠痛觉过敏,及其痛觉过敏的程度。方法:选取10月龄大小雄性SPF级健康Sprague-Dawley大鼠共76只,每只体重约为300g,采用随机数字表法分为4组(n=19):睡眠剥夺组(SD组),大鼠于睡眠剥夺水笼中行96hr急性REM睡眠剥夺;七氟醚吸入麻醉组(SEV组),大鼠放置入SD
背景:肿瘤转移,尤其是远隔组织器官的转移是导致乳腺癌患者死亡的最主要原因。在肿瘤细胞迁移过程中,细胞骨架重构是肿瘤细胞侵袭性行为的基础,肌动蛋白纤维动态性的重构为肿瘤细胞的迁移提供了所需的动力,由它所形成的板状伪足和线状伪足也是肿瘤细胞运动的结构基础。VASP参与细胞骨架的重排过程,在恶性肿瘤的发生及进展过程中发挥着重要作用,文献报道及本课题组研究均发现VASP在恶性肿瘤的转移过程中扮演者重要角色
背景:不管是在国内还是在国外,肺癌的发病率和死亡率都位居恶性肿瘤的前列。非小细胞肺癌是肺癌最常见的类型,大约占据肺癌总发病率的百分之八十五左右。按照病理组织学类型的不同,非小细胞肺癌又可以分为非小细胞肺腺癌、非小细胞肺鳞癌以及肺大细胞癌。而肺腺癌以及肺鳞癌,是非小细胞肺癌最主要最常见的两个病理组织学类型。早期的非小细胞肺癌患者,在经过外科手术治疗以后,五年生存率可以达到大约百分之四十。但是,大约有
学位
研究一:下切牙骨性支持范围相关的颅面结构特点分析目的:探讨与下切牙骨性支持范围显著相关的颅面结构特点,并在独立比较单一颅面结构特点与下切牙骨性支持范围的相关性基础之上,探讨众多颅面结构特点对下切牙骨性支持范围的联合影响作用。材料和方法:对武汉大学口腔医院放射科2013年1月至2013年12月的所拍摄的颅面锥束型CT的连续样本进行回顾研究。对符合条件的252例CT样本进行下切牙基骨骨松质厚度(LIC
研究背景和目的:紧密连接蛋白是存在于上皮细胞与内皮细胞之间的一种蛋白质,其作用是保持细胞间结构的完整性。OCCLUDIN蛋白作为紧密连接蛋白中主要一种类型,它的结构或表达发生变化会导致紧密连接结构及功能的改变,最终引起一些临床疾病的发生。研究发现,OCCLUDIN在多种肿瘤组织中表达异常,且OCCLUDIN与肿瘤细胞增殖、凋亡和侵袭迁移等有密切关系。而目前关于OCCLUDIN对非小细胞性肺癌发生发
随着计算机技术日趋成熟以及互联网技术的快速发展,各类信息呈指数增长,人们面对巨量的异构信息,很难从中获取自己想要的内容。正确的抽取、处理、归类上述信息并使之便于检索,是当前自然语言处理技术研究的热点和难点。指代消解是实现上述研究的关键子任务之一,因此越来越受到研究者们的重视。从广义上来说,指代消解能消除文本中的指代歧义,也能将不同源信息中对现实世界中同一实体的不同描述关联起来,因此广泛应用在其它自
随着网络多媒体和隐写术的高速发展,计算机用户可以轻松利用数字载体的天然掩蔽性在不被察觉的情况下实现信息传递。现实中该技术也常被非法分子利用从而威胁社会和国家安全。隐写分析作为隐写的有效对抗技术可以检测数字载体是否被隐写,体现出了重要的研究和应用价值。许多时候,由于受到强大载体信号的遮盖,即便是相对较高的嵌入率下,隐写检测准确率也难以达到让人满意的程度。检测率较低的分类模型在现实环境下无法提供有价值
图像分割是指按照一定规则把一副图像分成不同的小区域,一般分成目标和背景两个部分,若图像有多个目标,则可根据需要分成不同的目标和背景,并从中提出感兴趣目标的过程.图像分割是图像处理中一个很重要的步骤,在此基础上可以对目标进行相应地特征提取,以便对图像做进一步的分析和研究,于是对图像分割方法的研究就具有十分重要的理论和实际意义.迄今为止,针对这个问题,研究者提出了大量的方法和模型,这些和方法模型可归结