基于图数据库技术和模糊技术挖掘频繁并置模式

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhangchi900207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间频繁并置(co-location)模式是一组空间特征的子集,这些特征的实例在地理空间中频繁地出现在一起。空间并置模式挖掘旨在从空间数据中提取人们尚未知道但潜在有用的信息从而更好地服务人类活动,它已经驱动了许多社会应用,如基于位置的服务、城市规划等。尽管对频繁并置模式挖掘技术已经开展了许多探索,但仍然存在一些问题:(1)空间实例的邻近关系计算完成后通常存储在内存中,这种方式收集候选模式的表实例具有较高的效率,但随着数据量增加会占用大量的内存空间甚至导致内存溢出;(2)现有的许多方法将特征和实例(对象)的空间分布视为同质的,使用绝对的“欧氏距离+距离阈值”来衡量实例之间的邻近关系,但实例之间的邻近关系是一个相对的、模糊的概念;(3)空间实例的自相关性会导致实例间具有复杂的共享关系,而利用参与度来度量模式的频繁性忽略了这种关系;(4)通过生成候选模式的表实例来收集参与实例具有较大的时间和空间开销,导致算法计算效率较低。针对上述问题,本文首先探索了一种基于图数据库技术的空间频繁并置模式挖掘方法。图数据库以原生图结构来存储数据,利用图数据库可以很好地物化空间数据以及它们之间的邻近关系。基于物化的邻近关系图,设计了基于子图搜索(CliqueSearch)和中心对象过滤与验证(ObjectSearch)的挖掘算法,并对提出算法的正确性和完备性进行了证明。其次,提出了一种基于模糊技术的挖掘方法,即基于模糊网格团的空间并置模式挖掘方法。该方法引入模糊集理论来定义实例之间的邻近度;考虑到实例间的共享关系和邻近程度定义了模糊参与贡献度来度量模式的有趣程度;基于定义的邻近度量方法,提出了基于模糊网格团的基本挖掘框架。基于提出的挖掘框架设计了一种基于参与对象过滤与验证的朴素算法(POFV),它使用模糊网格团搜索技术取代组合搜索来收集参与实例,避免枚举所有表实例。为了解决朴素算法存在的问题,又设计了一种基于极大模糊网格团搜索参与实例的算法(MFGC),它可以有效地重用信息。最后,在真实和合成数据集上的实验证明了提出的基于图数据库技术的CliqueSearch算法和ObjectSearch算法、基于模糊技术的POFV算法和MFGC算法在挖掘结果和执行性能方面都具有较优的表现。
其他文献
哺乳动物的大脑是对氧气最敏感的器官,环境或病理条件下的缺氧会引起脑缺血及多种脑部病理性疾病,如卒中和脑梗等。目前治疗脑缺氧的化药如依达拉奉、纳洛酮等,具有副作用多的特点,因此找到预防及治疗缺氧的天然药物在高原医学、临床医学和运动医学中具有重要意义。薤具有治疗血瘀症的作用,血瘀即血液运行不畅,而这会影响大脑的供氧,由此我们推测薤可能具有治疗脑缺氧的作用。本论文对药食两用植物薤(Allium chin
学位
随着经济水平的发展和饮食结构的改变,全球肥胖患者的数目迅速上升,严重威胁人们的身心健康。临床数据表明,肥胖除了会引起他人的歧视之外,还会诱发糖尿病、高血压、癌症、中风、心肌梗死等代谢性疾病。目前临床上针对肥胖的方案主要是手术治疗、药物治疗和改善生活方式三种,但都有各自的缺点和不足。因此,寻找更加安全有效的先导化合物变得十分急迫。肥胖的成因主要是机体内白色脂肪的过度堆积,而白色脂肪堆积的主要形式是脂
学位
植物内生真菌(endophyte fungi)是一定阶段或全部阶段生活于健康植物各种组织和器官内部或细胞间隙,且不会引起植物组织变化的真菌。对内生真菌次生代谢产物及其生物活性研究已成为发现先导化合物,药物研发的新途径。本论文以药用植物黄草乌(Aconitum vilmorinianum Kom)中分离的一株内生真菌黑曲霉(Aspergillus niger B-30)为研究对象。采用马铃薯固体发酵
学位
特殊环境来源放线菌是活性天然产物的重要来源之一,蕴含大量未经开发的次生代谢产物资源,而基因组挖掘能充分揭示微生物的生物合成基因簇,有利于特境放线菌资源的开发和利用。本论文通过基因组挖掘发掘了两株特殊环境土壤来源放线菌的产生结构及活性丰富的次生代谢产物的潜力,通过培养基筛选确定了合适的发酵条件,扩大发酵并对其次生代谢产物进行了研究。论文主要内容分为以下三个章节。第一章综述了近几年微生物来源活性环肽类
学位
急性肺损伤(ALI)是一种严重的呼吸系统疾病,如果不及时治疗经常发展为具有很高的发病率和死亡率的急性呼吸窘迫综合征(ARDS)。湖北贝母是著名的中药材,具有镇咳、祛痰、平喘等功效。在这里,首次评估了湖北贝母提取物对脂多糖(LPS)诱导的ALI小鼠的影响,结果表明乙酸乙酯部分(EAF)显著降低了支气管肺泡灌洗液(BALF)的白细胞和中性粒细胞,肺指数以及肺匀浆的促炎细胞因子(TNF-α和IL-6),
学位
如今,社会已经进入信息化时代,各领域在面对信息化转型时会产生大量空间数据。因此,空间数据挖掘成为了不可忽视的研究方向。在空间数据挖掘中,快速且高效的空间co-location模式挖掘近年来得到研究者极大重视,收获了丰富的成果。Co-location模式的挖掘目标是识别空间事物之间的并置关系,因此识别出的co-location模式仅反映出空间事物之间的同位关系;基于团实例模型的传统colocatio
学位
脚骨脆属(Casearia)植物在南美和亚洲等国家已被用于民间医学,用来治疗溃疡、糖尿病和抗菌感染等。研究发现,该属植物中次生代谢产物主要以克罗烷型二萜、三萜、苯丙素类等化合物。药理研究也证明,该属植物的粗提物或单体化合物具有降血糖、抗氧化、抗炎、细胞毒性和抗菌等活性。基于现在具备的对植物中二萜类成分提取分离研究的经验和条件,以及对化合物进行抗炎活性研究的基础。本论文以采集自云南普洱的球花脚骨脆(
学位
蛋白质是生命活动最主要的载体,了解蛋白质的结构对于认识其功能有着至关重要的意义。近年来,用深度学习的方法从蛋白质的序列进行结构预测的工作已经有了巨大进展,作为蛋白质结构预测中必不可少的一步,蛋白质模型质量评估工作不仅可以帮助从模型池中挑选出最优的模型,也可以为模型进行局部优化提供参考,是蛋白质结构预测的最后一步。在蛋白质模型质量评估的研究中,使用深度学习模型进行蛋白质结构的特征表示学习是非常有效的
学位
社会网络是由网络中个体成员之间的交互作用形成的,被广泛应用于描述成员之间的相互行为。由于近年来社会发展迅猛,社会网络也呈现多样化发展,伴随着的便是网络信息的复杂化,也更加凸显了它的研究价值。社会影响力是在一定的网络下,个体能影响并改变其他人行为举止的一种能力。影响力最大化(Information Maximization,IM)问题旨在寻找网络中使信息成功传播最广泛的网络成员集合,以至于能够将这些
学位
烟草是我国重要的经济作物之一,云南省作为“烟草王国”,在烟草质量、产量、销售量与出口创汇等多项指标中多年连续位居全国首位,同时烟草也是云南省经济社会发展的重要支撑和财税收入的主要来源。烟支作为烟草最常见的产品,一直以来都是烟草行业发展的重点。目前烟支的高速生产线虽然能满足产量上的需求,但不可避免地给烟支质检提升了难度。在质检中,烟支外观瑕疵会直接影响香烟质量,如果次品大量流入市场,不但会降低消费者
学位