面向海洋产业知识图谱构建的信息抽取技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:nieguangyi127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱作为颠覆性的信息技术有着强大的语义处理能力和信息互联能力,因此构建海洋产业知识图谱不仅可以为海洋经济的发展提供核心驱动力,而且有助于海洋经济的可持续发展。由于构建海洋产业知识图谱面临最主要的问题是数据的获取,而非结构化文本中蕴含着大量的知识,因此从非结构化文本中进行信息抽取是知识图谱构建的重要步骤。信息抽取的关键技术是命名实体识别和关系抽取,但是目前命名实体识别和关系抽取仍存在着许多待解决的问题。首先是在命名实体识别任务中如何避免不同类型的特征在神经网络中相互干扰。然后是如何抽取海洋产业领域文本中的实体知识。最后是在关系抽取任务中,使用GCN时如何避免引入外部语言工具来构建图结构。因此,对于这三个问题,本文构建了一个新的数据集,并改进了现有的算法。研究内容主要包括以下两点。(1)为了解决不同类型的特征在神经网络出现相互干扰的问题,本文提出了多通道命名实体识别算法(MCNER)。该算法使用了多通道嵌入以捕获输入的不同类型特征,并提出了多通道Bi GRU网络来避免通道之间的相互干扰。为了对特征进行整合,同时也提出了通道内以及通道间注意力,它可以对各个通道内的特征按重要性分配不同的权重,并对各个通道间的特征也按重要性进行动态地整合,整合后的特征输入到CRF层分类出每个字符的实体类别。(2)由于GCN编码的图结构通常需要引入外部语言工具来构建,因此会导致模型计算量大,不能进行端到端的训练和不适用于专业领域内知识抽取等问题。为了解决这些问题,本文提出了动态图卷积神经网络关系抽取算法(DGCN)。该算法对序列进行特征提取后,在DGCN的每一层都使用了自注意力来推理出图结构,而不需要使用外部语言工具。推理出图结构后,然后再使用GCN进行编码。最后使用GCN全部的层表示输入全连接层进行特征降维,从而实现实体间的关系分类。本文在中英文数据集上分别进行了命名实体识别和关系抽取实验以验证模型的泛化性能。对于命名实体识别,通过实验证明了多通道命名实体识别算法可以有效地避免不同类型特征间的相互干扰,并且在海洋产业数据集和Co NLL-2003数据集都有较好的分类性能。对于关系抽取,通过实验证明了动态图卷积神经网络关系抽取算法无需引入外部语言工具来构建图结构,并且在San Wen数据集和Sem Eval-2010 Task 8数据集都有较好的分类性能。但是本文的信息抽取框架是流水线模型,这同样会导致误差的传递,未来还需要进一步研究实体与关系联合抽取的模型。
其他文献
近年来,光学自由曲面在很多领域得到广泛的应用,但由于其拥有着复杂的非回转对称结构,加工难度大。随着超精密加工技术的发展,基于刀具伺服的金刚石车削技术成为加工光学自由曲面的一种有效方法。然而慢刀伺服系统存在着加工效率低的问题,而基于柔性铰链的快刀伺服装置无法加工高低差在毫米级的光学自由曲面。因此有必要研制一种大行程、高频响的快刀伺服系统。本文的主要内容包括如下:(1)开展了大行程快刀伺服装置设计与优
近年来,航空航天技术飞速发展,地空天一体化的对地观测网络正逐步形成,与此同时,获得的高分辨率遥感图像也越来越多。高分辨率遥感图像包含丰富的地理信息,对其进行特征提取和图像理解,在城市建设、精准农业等众多领域中都有广泛的应用。语义分割对图像中的每个像素点进行分类,是对遥感图像进行处理的常用方法之一。以全卷积网络为代表的深度学习模型是语义分割领域常用方法。但由于网络设计固有的结构特性,将其应用在语义分
新空调投放到市场前需针对不同环境工况进行大量焓差实验,而实验台在创造测试所要求工况(“打工况”)的过程中需要消耗大量电量。以本文调研企业为例,作为空调测试行业的标杆,该企业每年进行空调测试需消耗约1500万千瓦时电力,电费高达1200万元人民币。若能够通过运筹优化手段合理安排测试计划以减少电力消耗,将具有较大的经济及社会价值。通过调研发现,行业内存在以下几点共性问题。首先,打工况时间与测试任务的顺
随着计算机图像处理技术的进步和各个行业对于三维模型需求的提高,三维模型已在各种领域获得广泛应用。三维模型本质上属于一种数字媒体文件,互联网的快速发展为三维模型的协同设计和数据信息共享提供了极大的便利。与此同时,互联网的快速发展也降低了不法分子非法复制、篡改、传播三维模型的违法门槛。如何有效防止三维模型的非法复制、篡改和传播,高效的保护著作人的合法权益已经成为了目前亟待解决的热门问题。目前区块链技术
随着“赣南脐橙”品牌在市场中的发展,其品牌价值不断提高,伴随而来的问题也不断加剧。果农为追求短期效益过度使用农药化肥,无良厂商进购劣质脐橙冒充赣南脐橙,使得赣南脐橙的口碑受到影响,影响经济效益,更严重的可能产生食品安全问题,危害消费者生命安全。为此,应在赣南脐橙供应链的各个阶段对数据进行记录,一旦发生质量问题,可根据供应链数据进行追责,以此驱动供应链参与方遵守市场规定,保障人民生命安全,同时维护了
随着比特币为代表的数字货币的兴起,区块链作为其底层技术也非常受到区块链业界的关注。区块链的去中心化、防篡改等特点使得其在银行等领域应用广泛,而共识算法是区块链的重要部分,对系统吞吐量、交易确认时间等方面具有重要影响。但应用于联盟链的PBFT共识算法存在缺陷,例如三阶段共识流程造成通信开销大、主节点按编号依次轮流选取、节点无法动态加入与退出等。在此背景下,本文提出了PBFT+共识算法,主要研究内容如
共享汽车随着移动互联网技术和共享经济的兴起而逐渐发展起来,作为一种新的共享出行模式在国内逐渐被推广,增加了用户对于出行方式的选择。用户对于这种新的出行方式抱着探索性的态度,这对于企业来说即是机遇又是挑战。共享汽车企业把国外分时租赁的服务经验和模式引入国内,但并没有完全适用于我国用户的实际需求。而服务设计,是可以将用户和利益相关者的需求痛点转化为可视化图形的一种研究工具。应用服务设计,能够有效的改进
随着科学技术的飞速发展,人们正快速进入人工智能的时代,智慧城市是当前研究的热点,作为智慧城市一部分的智能车辆,也是当今时代的重点研究对象之一。由于人们生活水平的提升,车辆的使用率也随之猛增,但道路交通安全的问题却越来越严重,还造成了环境的污染,如何解决这些问题成为了社会越来越关注的重点。为解决这些问题,需要重点研究如何提高车辆的自动避障能力、对周围环境变化的敏锐程度以及车辆的预判能力等方面。本文针
从观察数据集中发现感兴趣的变量间的因果关系是近年来科学研究中的一个备受关注的问题。但在许多真实场景中,由于时间推移、具有多种不同的来源或收集方式等因素的影响,异质数据集通常可以分为多个服从不同分布的子数据集,各个子数据集中的因果关系所对应的数据生成机制也是不同的。由于现有因果关系研究中通常含有一个潜在的假设,即仅存在一个固定的数据产生机制,因此现有的面向同质数据的因果关系发现方法无法从异质数据集中
Sialon陶瓷刀具具有高硬度、高强度、较高的韧性、良好的耐磨性以及高温下优异的机械稳定性等特点,是切削镍基高温合金的重要候选刀具之一。但目前研究主要集中在β-Sialon及其复相陶瓷方向,而对α-Sialon陶瓷刀具缺乏系统性的研究。本文基于放电等离子烧结技术(SPS)制备α-Sialon单相陶瓷与α-Sialon复相陶瓷,系统地研究了烧结温度、保温时间、烧结助剂含量和第二相种类对物相组成、相对