基于先验知识的垂直领域知识图谱更新研究及实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lg97060329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱在当下的许多应用中扮演着越来越重要的角色,一个完备简洁的知识图谱是许多自然语言处理任务的前提。然而,随着新数据的不断产生,知识图谱中过时的知识会显著降低知识图谱的质量。对于垂直领域知识图谱来说,只有及时地从新发布的领域规范性文件中抽取新实体之间的关系,才能为下游任务提供可靠的数据支持。本文为了保证垂直领域知识图谱的实时性,降低人工标注的时间和经济成本,设计并实现一个领域知识图谱的管道式更新算法。论文的主要研究内容有以下几个方面:(1)提出了针对垂直领域知识图谱的管道式更新算法。现有的知识图谱更新策略需要大量的标注数据保证模型性能。然而,大部分垂直领域只有少量的标注数据。为了处理频繁发布的领域规范性文件,需要专家进行人工标注,效率低且耗费时间。这种结合先验知识的管道式方法,首先通过DVBS(Dictionary Vocabulary and Bayesian Sets jointly)方法有效识别领域新实体,再通过BBGDA(BERT-based Bi-GRU with Dual Attention mechanism)方法抽取包含领域新实体的句子中含有的关系,从而实现知识图谱的动态更新。(2)提出DVBS方法进行垂直领域命名实体识别。现有的通用领域分词工具对于垂直领域的文本切分粒度过细,影响垂直领域命名实体识别效果。根据领域规范性文件中命名实体往往是组合词的特点,先获取领域术语候选集,进一步将实体按照类别加入领域命名实体词典。(3)提出融合注意力机制的BBGDA关系抽取模型。基于BERT模型进行词汇编码,其具有的自注意力机制允许输入之间相互作用,使得词汇的语义编码更加符合语境。通过单词级别的注意力机制重点关注对关系分类起作用的语义信息。句子级别的注意力机制,减少远程监督过程中产生的噪声。本文旨在针对领域规范性文件的数据特点,实现垂直领域知识图谱的数据层增量式更新,保证垂直领域知识图谱的实时性。从而为垂直领域知识图谱的下游任务提供高质量的数据保证。
其他文献
近年来,物联网(Internet of Things,Io T)技术的快速发展和在线社交媒体的兴起促进了地理位置社交网络(Location Based Socail Networks,LBSNs)的繁荣。基于位置的影响力最大化问题受到广泛关注,该问题旨在从LBSN中寻找最具影响力的种子用户,从而推动目标地点吸引更多的访问者。该问题在许多重要的Io T场景中得到了应用,如病毒式营销、广告部署等。然而
学位
随着互联网技术日新月异的发展,越来越多的人开始接触大数据和人工智能领域。为了处理随之产生的海量非结构化文本数据,自然语言处理(Natural Language Processing,NLP)的相关研究不断涌现。NLP的典型应用包括信息检索、聊天机器人和机器翻译,其中都涉及到句子的相似度计算,可以认为NLP的很多应用任务就是在判定两个语言单元间的语义相似度,并且随着多语言资源的不断丰富,跨语言的信息
学位
伴随着量子计算机研制和量子算法研究的迅猛发展,安全性依赖于传统数论困难假设的经典密码学体制在后量子时代面临巨大的安全威胁,而格密码学由于具有格上困难问题的安全性保障、相对高效的实现以及较为简单的安全证明,在众多的抗量子密码体制中脱颖而出。数字签名作为最重要的密码学原语之一,格上数字签名研究自然也受到了学界广泛的青睐。增量数字签名为数字签名的一个研究分支,主要针对对快速更新且相互之间差异较小的大型数
学位
<正>2021年7月29日上午,第五届中国出版政府奖表彰会在北京举行。会上发布了《国家新闻出版署关于表彰第五届中国出版政府奖获奖出版物、出版单位和出版人物的决定》和第五届中国出版政府奖获奖名单。经严格评选,20种期刊获期刊奖(其中社科期刊10种),《学术月刊》列第6位。本届中国出版政府奖评选表彰是在庆祝中国共产党建党100周年、迈上全面建设社会主义现代化国家新征程之际,对出版界的一次巡礼和检阅。《
期刊
农场果树的病害每年都会带来大量的损失,许多具有传染性的病害如果能在早期及时发现并处理,就可以极大的降低农场的损失,甚至可以避免病害蔓延开来造成巨大的经济损失。随着人工智能技术的不断发展,农场病害检测也由过去的人工巡逻,专家检测的模式逐渐发展为现在的依赖摄像头拍照,算法识别的模式进行病害检测。这能够极大降低由于果农对病害不熟悉而带来的损失。目前,各类识别算法被大量用于植物病斑的识别工作。其中,深度学
学位
推荐系统可以帮助用户简化决策,改善用户体验,增加用户对平台的粘性。协同过滤是最重要的推荐技术之一,但它面临两大挑战,即数据稀疏性和冷启动问题。虽然将辅助信息融合到推荐模型可以缓解这两个问题,但大多数模型很难捕获用户与项目之间的历史交互信息。此外,现有的推荐模型不能灵活地集成多种类型的结构化辅助信息,也不能充分地捕获实体之间的异构信息。本文借助图神经网络(Graph Neural Networks,
学位
以视频为媒介的社交娱乐方式逐渐成为主流,在享受海量视频带来的轻松和便利时,如何有效处理海量视频成为亟待解决的问题。视频描述指通过机器自动生成视频内容描述语句的技术,其融合了计算机视觉和自然语言处理技术,是处理视频的重要手段之一。现有模型通过预训练方式提取特征导致特征效果不佳,同时简单融合策略导致特征融合不理想,语义引导存在语义不准确和不关联等问题。针对上述不足,本文提出基于多视觉特征和增强视觉关系
学位
目的 观察金水宝片联合生精胶囊在治疗不育症方面的效果,明确肾在治疗不育症方面的重要作用,证实“补肾生精”理论在治疗不育症当中的指导价值,为不育症治疗提供新的思路。方法 选取2019年1月—2020年12月在上饶市人民医院泌尿外科门诊就诊的满足入组条件的120例不育患者,按照随机数字表法将患者划分为观察组和对照组,每组60例。对照组采用单纯生精胶囊治疗,观察组采用金水宝片联合生精胶囊治疗。2组患者在
期刊
装配式建筑符合可持续发展要求,能够促进建筑业转型升级,因此近年来在我国得到快速发展,我国建筑业普遍使用的DBB等传统管理模式已不能满足其快速发展的需要。EPC模式因其具备系统化、组织化和精细化的特点,与装配式建造方式十分契合,因此国家在推进装配式建筑项目落地实施的过程中,积极鼓励采用EPC模式。但由于我国推行装配式EPC项目的时间较短,具体实践应用不够成熟,业界和学术界在这方面的研究还不够深入,导
学位
近年来,目标检测技术快速发展,极大的推动了自动驾驶、城市安全、智能保障等领域的发展。城市管理关乎到人民的安全,如何管理城市显得极为重要。基于目标检测的流动摊贩检测使城市管理更加高效智能。由于流动摊贩的背景复杂,存在着目标尺度较小,遮挡严重等影响检测的情况,导致现有的算法无法适配复杂背景下的流动摊贩检测。针对以上问题,本文的改进如下:目标检测算法需要大量的数据集进行训练,目前不存在相应的摊贩数据集,
学位