基于实体匹配的服务发现研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mailxxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
服务计算用于解决设备功能单一、算力弱及存储容量小等问题,通过服务发现方法引入第三方云服务来提升设备的能力,进而实现对数据的分析与存储任务。然而传统的服务发现算法需要依赖人工制定规则或者需要大量历史记录,并且随着应用开发复杂性增加以及服务数量的爆炸式增长,服务发现方法面临新的挑战:(1)服务描述存在歧义:不同公司提供的相同服务存在描述歧义;(2)服务描述格式异构:不同公司的服务描述格式不统一;(3)应用需求复杂:单个服务难以满足应用需求。为了解决上述挑战,通过将服务建模为一种特殊的实体,提出了一种新型基于实体匹配的服务发现算法,该算法设计了一种基于预训练自注意力机制的模型,来解决服务需求与服务描述匹配过程中的歧义与异构问题。自注意力机制能够提取出描述中具有分辨性的关键信息,去除歧义影响,使得服务匹配更加准确,并且具有很强通用性。基于此方案实现了一个通用实体匹配算法Hier GAT,该算法在多个领域的公开数据集上的匹配精度F1比传统方案有显著提升。通过对此通用实体匹配算法优化,设计实现了服务匹配算法APIMatcher,该算法利用多层注意力计算策略,分别提取出服务需求与服务描述中的关键部分,并利用注意力机制进行匹配计算,提高了实际部署的可用性。在不同的服务匹配过程中,APIMatcher算法将动态提取服务描述的关键部分以适应不同服务需求,更利于多服务发现,解决应用需求复杂的挑战。在通用匹配评测基准上的实验结果表明,所提出的算法相较于主流实体与服务匹配算法F1性能最高提升8.7%与8.4%,获得了当前最领先的性能。基于APIMatcher算法实现的服务自动发现框架,在世界最大的服务仓库Programmable Web上为现实复杂应用需求提供了服务发现机制。
其他文献
在党的十八大将可持续发展战略正式列入国家战略后,国家的生态文明建设逐渐进入新时期。作为推动经济增长的主力和环境保护的主体,履行环境责任已然成为企业转型升级的必然要求。虽然环境治理带来的成本支出与企业经营的盈利性目的存在的矛盾导致不少企业缺乏保护环境的动力,甚至牺牲环境以谋求短期的高速发展,但从长远发展的视角来考虑,企业主动积极履行环境责任有利于提升自身价值。诸多学者的研究表明,企业内外部的各种因素
学位
随着混合所有制改革的不断深化,我国混合所有制改革的双向性日益凸显,民营企业逆向引入国有投资者的案例越来越多,实务界甚至出现了“国进民退”的讨论。学术界普遍认为外部民营投资者的引入对国有企业僵化的治理结构具有“鲶鱼效应”。那么,外部国有投资者的引入对于民营企业是否也同样具有积极效应?这种积极效应又是如何实现的?本文以此为切入点,对民营企业逆向混改中的控制权配置问题展开研究,试图从控制权配置与运用的角
学位
自2013年场内股权质押市场的开放以来,股权质押以其低门槛、低成本、高效率等优点深受股东喜爱。控股股东的股权质押融资不但可以反哺企业,为企业带来充足资金,还会加剧代理问题,加大控制权转移风险。随着经济全球化、经济金融化的风靡,金融投资广受逐利资本所偏好,实体企业“脱实向虚”现象显著。因此,研究控股股东的股权质押行为是否会影响企业金融化发展十分必要,厘清其中内在的影响路径也具有重大现实意义。回顾国内
学位
2015年,在股价大幅下跌的背景下,为了稳定公司股价,向投资者传递积极的信号,资本市场出现了一种特殊的增持方式——兜底式增持。兜底式增持与传统的由大股东直接进行增持不同,一般由上市公司大股东作为倡议人,倡议员工进行股票增持。这种增持方式以低资金成本、流程简便等优势为各大板块、各大行业的上市公司所“青睐”。近年来,由于兜底式增持的相关法规还未完善,一些上市公司实施的兜底式增持变成了一种“忽悠式增持”
学位
随着人工智能技术的发展,模式识别为工业物联网系统提供了更高效的自动化控制与人机交互方式,已经成为实现工业化和信息化融合的主要手段。传统模型训练依赖特征分布均匀的数据输入,因此在特征分布不均匀的工业数据输入下,模型出现了失效与遗忘问题。近来有研究表明通过多次增量训练调整参数的方式,可以帮助模型适应数据流特征分布的变化。针对工业环境特征不均匀的数据流输入,提出了基于记忆回放的工业增量(Industri
学位
社区搜索作为图挖掘的重要研究内容,能被运用到社交网络推荐、语义扩展和流行病学调查等诸多应用当中。目前的社区搜索研究主要是在静态图上进行的,无法处理现实中广泛存在的时序信息。同时,现有的研究没有对顶点在不同社区中的参与情况进行区分,而一个顶点在各个社区中的参与情况通常存在着差异,其参与更多的社区对该顶点更为重要。因此,寻找到特定顶点参与最多的社区具有重要的意义。基于上述问题,对时序图中顶点重要参与社
学位
间隔理论的相关工作表明,相比于最大化样本的最小间隔,优化间隔分布可以带来更好的泛化性能。最优间隔分布学习机正是基于这样的间隔理论提出的全新统计机器学习框架,并在大量机器学习任务中展示出了极佳的通用性和极好的泛化能力。然而,由于需要引入非线性核函数以解决线性不可分问题,其计算核矩阵的时间复杂度和空间复杂度都与样本数量相关,因此在训练数据集较大的情况下,训练最优间隔分布学习机所需的计算和存储资源都是难
学位
数据作为当代互联的智慧城市生活中的一项关键资产,越来越多机构通过共享数据来推进科技发展。但由于数据本身敏感性,在共享的同时必须考虑到数据隐私保护的问题。在利用属性权限共享数据的过程中隐私问题可以被大致分为数据隐私、属性隐私和权限策略隐私三类。现有的方案主要基于区块链、密码学等技术实现数据共享,但都侧重于数据共享过程的访问控制与记录审计,仅保护了用户的数据隐私,忽略了属性和权限策略隐私。因此如何在数
学位
随着需要存储的数据类型不断增多,管理海量非结构化数据的需求不断增加,受限于磁盘的工艺和架构,文档数据库已无法满足数据处理对于及时响应的要求。新型持久内存(Persistent Memory,PM)由于同时具有非易失特性以及近似于动态随机存储器(Dynamic Random Access Memory,DRAM)的快速的读取速度,为提升文档数据库的性能提供了新机会。但直接将传统的面向磁盘设计的文档数
学位
CPU作为计算机系统的核心,其安全属性对于系统安全起到至关重要的作用。近年来公布的两组CPU安全漏洞Spectre与Meltdown,几乎影响了全球所有现代处理器,对计算机系统安全造成了严重的危害。其中,Spectre利用了现代处理器中广泛使用的推测执行技术,是一种难以防御的CPU安全漏洞。Spectre攻击误导受害者的指令流在错误的路径上执行,并且构建推测性侧信道来泄露受害者的秘密数据。最近针对
学位