【摘 要】
:
命名实体识别和关系抽取作为信息抽取的基本任务,可以为知识库提供准确和大量数据的支持。知识库不仅仅可以为相关产业发展打下坚实的基础,更可以通过知识库对产业进行分析总结,最终实现相关产业可持续高速发展。但是目前来说,信息抽取的研究依旧还有待更进一步的发展。命名实体识别任务存在着如何能有效利用单个字与词语的结构特征输入以及如何按词语的重要性来赋予不同的高权重的两个问题。关系抽取任务存在传统方法使用依赖抽
【基金项目】
:
广东省促进经济高质量发展专项资金项目,《广东省新兴海洋经济产业地图与大数据平台》,项目编号:GDNRC[2020]056;
论文部分内容阅读
命名实体识别和关系抽取作为信息抽取的基本任务,可以为知识库提供准确和大量数据的支持。知识库不仅仅可以为相关产业发展打下坚实的基础,更可以通过知识库对产业进行分析总结,最终实现相关产业可持续高速发展。但是目前来说,信息抽取的研究依旧还有待更进一步的发展。命名实体识别任务存在着如何能有效利用单个字与词语的结构特征输入以及如何按词语的重要性来赋予不同的高权重的两个问题。关系抽取任务存在传统方法使用依赖抽取工具获取句子之间的结构依赖特征会出现误差传递的问题。因此,对于两个任务的一些问题,本文在海洋经济产业领域构建了两个新的海洋经济产业数据集和研究了两个模型进行验证。研究内容主要包括以下两点。1、针对命名实体识别的词语重要性等问题,本文提出了全局注意力网格Transformer实体识别模型(GALT-NER)。该模型首先通过词嵌入层输出词向量,再通过Bi-GRU层获取上下文特征向量,之后分别输入全局注意力层和Transformer编码结构层提取特征向量,最后将两个向量拼接输入CRF层进行实体标签分类。2、针对关系抽取的误差传递等问题,本文提出了有序长短期记忆多头注意力机制关系抽取模型(OL-MAM-RE)。该模型首先经过词嵌入层输出词向量,再输入Bi-LSTM网络中输出包含上下文特征的向量,之后输入On-LSTM层输出含有依赖结构关系的特征向量,再输入到多头注意力机制中得到词特征向量,最后输入到全连接层进行降维,得到实体间可能的关系标签的概率。本文的两个模型在海洋经济产业数据集和公共数据集上进行性能测试,实验结果显示出了两个模型的性能有很好的提升,还验证出了GALT-NER模型可以有效利用字词结构来丰富向量的多样性,也证明了基于On-LSTM的OL-MAM-RE模型可以有效获取句子中词语之间的依赖结构的特征向量。在未来的一个研究方向是研究实体和关系联合抽取在海洋经济产业领域的应用。
其他文献
微小故障的诊断对保障现代工程系统的可靠性和安全性具有重要意义,也是故障领域很有挑战的任务之一。早期的微小故障如果未被检测出来,可能会演变成其他类型的故障,轻则损害系统的性能,严重时会导致系统瘫痪失效,引发灾难性的事故。比如在发动机旋转失速的诊断中,如果能够及时准确检测出旋转失速,防止喘振现象的发生,就能很好预防飞机出现重大事故,这对保障航空发动机安全稳定运行具有重大意义。随着信息技术和故障诊断领域
随着大数据时代和电子信息技术的飞速发展,多视图数据的身影时常出现在不同领域的科学研究和各种实际应用场合中。与单视图数据相比,多视图数据因为可以提供更多对学习任务有用的信息,所以对于聚类和分类学习任务具有更好的性能,因此多视图学习一直是人工智能和数据挖掘等众多领域的重要研究方向。近年来,基于张量奇异值分解(t-SVD)的多视图聚类算法,充分利用张量数据的低秩特性,可以更高效、更彻底地探索多视图数据之
情绪,高度概括了人们的主观认知经验,在人与人的沟通中具有重大意义。目前单模态情绪识别研究已经很成熟,但在当今,人们都是通过混合的方式来表达情绪,现有的多模态情绪识别研究在获取各个单模态的情感特征时,往往忽略了情感特征的交互性与完整性,特征的丢失导致模型在准确度和性能方面都有所欠缺;同时,在多模态数据融合的过程中,存在无关信息干扰,且没有最大化的保存各个模态之间的有效交互信息。因此本课题针对上述存在
随着5G通信领域的飞速发展,无线通信设备爆炸式增长使得有限的频谱资源日渐紧缺。因此研究如何解决紧张的频谱资源和频谱的低利用率问题具有深远的研究意义。目前,认知无线电技术中已经开发了许多频谱感知方案用以寻找频谱空穴,进而达到提高频谱利用率的目的。但其中部分频谱感知方案依然有着一些问题,例如:判决门限的计算复杂且低效、未考虑感知环境中存在个别异常用户干扰的影响等。本文为了解决当前已有的频谱感知方案性能
工业产品表面缺陷分割是指在产品表面分割出缺陷的部位以及识别该缺陷的类别。它是工业产品生产过程中不可或缺的一部分,能有效的监控工业产品的质量,为产品的美观度、舒适度和性能等提供有力保障。尽管目前的缺陷检测算法对于工业产品表面缺陷检测已较为成熟,但仍然存在以下挑战。首先,由于待检产品表面图像采集场地存在多种复杂光源的干扰,使得一些具有金属材质的工业品容易产生不同程度的反光现象,从而造成对工业品表面缺陷
多标签学习处理的是将给定的样本同时与多个标签相关联的问题。近年来,多标签学习已成为机器学习文献中的一个热门话题,并引起了大量的研究。然而,如何准确地描述标签之间的真实关系,以及如何进一步增强标签之间的相关性依然是多标签学习所面临的挑战。另外,以往大多数的多标签学习方法只考虑了单个视角的信息,很少有与多视角学习结合起来。为此,为了解决多标签分类问题,本文提出了一种基于标签相关性的多视角多标签学习方法
随着无人控制技术的发展和现实应用场景需要,机器人技术逐渐向自主化、智能化方向发展,机器人不仅需要具有稳定的运动能力,还需要感知、识别周边环境,实现准确定位以及自主规划。在室内环境中,GPS信号容易受到干扰和屏蔽,无法为机器人提供可靠准确的位置信息,而室内光学动作捕捉系统布置繁琐、设备成本高。基于视觉的同步定位与建图技术通过少量传感器即可实现自主环境感知,能够建立可供定位和导航规划的环境地图,是解决
最近几十年,针对非线性系统的自适应控制研究已经有了许多重要的成果,对整个自适应控制领域的发展起到十分重要的作用。但是,一些针对时不变参数非线性系统自适应镇定控制的算法,在具有时变参数的不确定非线性系统中并不适用。因此,具有时变参数的不确定非线性系统的自适应镇定控制问题是控制领域一直以来需要深入探讨的重要研究方向。针对具有时变参数的不确定非线性系统的自适应镇定控制问题,本文应用了一种称为变量凝结的方
随着科学技术不断的迭代与更新,当今社会生活和工业领域存在的系统日趋复杂,如交通系统、冶金系统、电力系统等,这些复杂系统往往具有高度的非线性,且难以建立准确的数学模型。因此,如何去克服系统未知动态带来的问题,实现对非线性系统的控制成为广大科研工作者关注的焦点。近年来,多种基于神经网络的非线性系统智能控制方案被提出,其中局部加权学习神经网络算法由于其对系统未知非线性良好的辨识性能和灵活性,受到众多学者
随着我国经济的飞速发展,人们对青少年的发育状况变得愈发重视,因为在儿童与青少年人群中出现发育问题的案例呈现增长趋势,骨龄作为评判青少年发育状况的重要指标,常常在临床上使用骨龄作为青少年儿童的成熟水平的衡量标准。如果只通过骨龄专家人工的方式来进行骨龄评测,不仅效率低而且主观性强,同时因为骨龄专家的缺少,导致有很多青少年儿童不能及早的发现问题。因此本课题设计并开发一个基于Android系统的青少年AI