【摘 要】
:
科技的快速发展,产生了许多以不同形式存储的异构数据,形成了大量封闭的信息孤岛,阻碍了数据的分析、共享和应用。模式匹配方法被广泛应用以解决异构数据语义冲突问题,然而目前的模式匹配方法仍然存在着匹配空间过大,匹配准确率和效率不高等问题。因此本文在深度学习的基础上,重点研究如何降低匹配空间、提高匹配的效率和准确率。主要包括以下几个方面:首先对现有模式匹配方法进行分析,明确基于学习的方法在异构数据语义集成
论文部分内容阅读
科技的快速发展,产生了许多以不同形式存储的异构数据,形成了大量封闭的信息孤岛,阻碍了数据的分析、共享和应用。模式匹配方法被广泛应用以解决异构数据语义冲突问题,然而目前的模式匹配方法仍然存在着匹配空间过大,匹配准确率和效率不高等问题。因此本文在深度学习的基础上,重点研究如何降低匹配空间、提高匹配的效率和准确率。主要包括以下几个方面:首先对现有模式匹配方法进行分析,明确基于学习的方法在异构数据语义集成中的优越性。其次对目前通用的基于BP神经网络的异构数据模式匹配方法进行详细分析,发现其中用于特征提取的原始数据指标体系和用于相似度计算的模型存在一些不足。针对原始数据指标体系忽略了不同类型的数据对同一特征指标敏感度不同的问题,本文基于注意力机制计算数值型数据和字符型数据中原始13个特征指标的注意力权重,并通过实验分别确定权重较高的6个指标作为关键指标。实验结果表明基于关键指标进行特征提取,无论是应用于BP神经网络中,还是注意力模式匹配模型中,其查准率、查全率和F1值均高于原始数据指标体系。同时能够提高人工提取特征的效率、降低模型复杂度和匹配空间。对BP神经网络模式匹配模型匹配准确率不高的原因进行分析,建立了一种基于注意力机制的模式匹配模型。实验结果表明在多个场景下,无论是基于原始数据指标体系还是关键指标进行特征提取,基于注意力的模式匹配模型在查准率、查全率和F1值的表现均优于BP神经网络。同时从理论上也验证了该模型能够进一步过滤干扰数据,提高匹配的准确率。本文提出的方法,能够提高匹配的准确率和效率,查准率能够达到90%。同时降低了模型的复杂度和匹配空间,为解决异构数据语义冲突带来了新的思路。
其他文献
改革开放以来,随着我国城市化进程的不断加快,国民经济和生活水平得到提高的同时,对历史城镇的发展产生了不可避免的负面影响,黔东南历史城镇在发展过程中失去其独特的地域文化特色。黔东南的地域文化,一方面是山地地形的复杂多变,城镇营建方式不同于传统的平原地区,另一方面是其历史背景铸就了多元的文化景观。但在近期的城市化发展进程中,二者在发展过程中都受到不同程度的破坏。同时,“城市历史景观”的概念被进一步提出
我国地铁轨道交通建设的发展正进入高速时期。在轨道交通发展和城市开发模式不断优化的过程中,地铁站的性质已经从单一的交通属性逐渐介入人们的生活,成为功能复合化的城市公共空间。地铁站域空间也从一个较为冷门的基础工程类研究领域逐渐出现在众多专家学者的视线中。因此,不同学科的融合与众多因素的系统组织,使地铁站域空间在人性化思考与网络化梳理中,展现出城市各要素的综合价值。同时地铁站域空间所构成的复杂系统与建筑
随着我国城市地下空间开发的兴起,地下结构发生抗浮失效的事故屡见不鲜,而众多研究表明,施工期是发生抗浮失效的高峰期,但现有的研究缺乏对于结构施工期抗浮的关注,对结构抗浮能力也仅限于使用安全系数来评价,忽略了较多影响抗浮的因素,因此为提出一种有效的抗浮研究方法,本文进行了如下研究:(1)建立抗浮可靠性分析所用的有限元模型:基于ANSYS有限元软件对发生抗浮失效的某项目地下车库建立模型,并将项目现场的实
随着四环素类抗生素的广泛使用与大量排放,对水环境造成了严重的破坏,如何高效地从水体中去除四环素对环境的保护具有十分重要的意义。高级氧化工艺(AOPs)是一种能够高效降解抗生素污染物的方法,该工艺能够通过过渡金属活化过一硫酸盐(PMS)生成强氧化性的自由基,具有高效、低成本、操作简便的优点,制备含有过渡金属的多孔材料对PMS的活化起着关键意义。金属有机骨架材料(MOFs)由金属中心和有机配体形成,具
碳纤维织物增强混凝土(Carbon Textile Reinforced Concrete,简称CTRC)是一种主要由碳纤维织物和细骨料混凝土结合形成的复合材料。纤维织物的力学性能直接影响CTRC的力学性能。目前,提升纤维织物的力学性能最有效的方法是对其浸渍有机胶,这种处理既有利于改善织物与水泥基体的界面粘结性能,又有效提升织物的力学性能。由于有机胶在50℃以上的温度下会出现软化现象,采用有机胶浸
病毒是体型微小,只由核酸和(或)蛋白质构成的非细胞生物,需要寄生在活细胞内并以复制的方式进行增殖。环状RNA是呈封闭环状结构的非编码RNA分子,表面富含miRNA结合位点,在疾病发生中发挥重要的调控作用。随着高通量测序技术的快速发展,环状RNA在不同物种中的表达与功能研究逐渐成为新的热点。目前在双链DNA病毒(dsDNA)中已鉴定出几种与癌症相关的病毒环状RNA,但尚不清楚其他病毒中是否存在环状R
随着电镀、采矿、印刷、冶金等行业的快速发展,使得大量含Cr(VI)废水被排放进入地表水或地下水。由于Cr(VI)对生物体的高毒性、高流动性、致癌性和致诱变性,对人类及生态环境造成了严重的危害。目前,吸附法是去除废水中Cr(VI)常用的技术。层状双金属氧化物(LDOs)类材料具较大的比表面积和较高的稳定性,聚苯胺(PANI)上有丰富的含氮官能团,为污染物吸附提供了大量的活性点。因此,本文通过简单的水
随着我国城市化进程地不断深入,规划重心逐渐由增量规划向存量规划转变。古城作为城市中重要的存量区域,体现着城市独特的历史文化和地域特征,其可持续的保护更新与城市的协调发展不可忽视。然而随着城市化进程的不断加速,城市遗产的生存环境受到较大冲击,面临传统与现代、保护与发展之间的诸多矛盾。同时,历史文化的缺失和群体认同感的薄弱,给城市特色的保护与传承带来巨大危机。如何促进古城历史文化保护和活力复苏、满足居
膜生物反应器MBR(Membrane bioreactor)技术通过结合生物降解过程和膜过滤过程,具有稳定高效可靠处理效果、高生物固体浓度且没有污泥沉降问题等优点,因而广泛应用于污水处理和废水回用,特别是在改造和提升水处理系统也因其占地小并且效果好而具有优势。然而,膜污染是MBR发展和运用的瓶颈,需要额外的能耗和人力来维护运行。群体淬灭QQ(Quorum quenching)能通过干扰群体响应QS
弹性波全波形反演是地震勘探中重要的研究方法。它从地震数据得到的弹性参数中重建高精度的图像,为地震勘探专家进行石油勘探提供依据。弹性波全波形反演相对于传统的地震勘探方法具有一定的优势,一方面弹性波波动方程相对于一般的声波方程参数更多,对地下介质结构描述的更准确;另一方面,对于复杂地质结构能够构建得更加清晰。但该方法是以巨大的计算成本消耗为代价的。随着高性能计算领域的蓬勃发展,以及超算平台计算能力的不