基于指针生成网络的中文开放式关系抽取研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Melaniemei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的关系抽取方法大多使用关系分类模型,其无法有效获取文本中蕴含的新型关系。为了缓解这一问题,开放式关系抽取应运而生。这种抽取方法不需要预先定义待抽取关系的类别,能有效的发现实体间新的关系。但随之带来了两个新的问题:一是,主流的开放式关系抽取模型受制于专家“经验”的局限性,并且预处理工具会导致误差传递,影响抽取精度;二是,开放式关系抽取无法贴合领域进行抽取,抽取出的关系元组不能体现领域背景。本文基于之前的相关研究成果,提出了改进的开放式关系抽取方法,并对抽取结果进行领域识别。同时,将深度学习引入中文开放式关系抽取任务中,设计并实现了一种新的抽取思路。本课题的主要研究工作如下:(1)提出基于句法结构的中文开放式关系抽取方法,并针对语料语言结构特点归纳了 8条依存路径规则。该方法的核心是将语句的依存句法树映射到依存路径规则中,不对实体与关系之间的相对位置进行限制,深度挖掘依存路径背后所隐含的依赖语义。使用浅层句式特征对抽取出的候选元组进行过滤,提高抽取的准确性。实验结果表明,与参照模型相比F值最高提升了 4.22%。同时,使用该方法为后续基于深度学习的抽取模型提供高质量的语料库。(2)提出领域关系识别方法。目的是对开放式关系抽取的结果进行处理,识别出目标领域的关系元组。该方法的核心是利用预训练语言模型将关系元组转换为动态语义矩阵,缓解关系元组语义匮乏的问题,并使用TextCNN模型对其进行特征提取,生成关系元组的深度语义表示。实验结果表明,与参照模型相比F值分别提升了 4.5%、3%。(3)提出基于指针生成网络的中文开放式关系抽取模型,PG-CORE。该模型的核心是将开放式关系抽取任务视为文本摘要问题,并利用指针生成网络机制让模型聚焦于生成原句中的词单元。模型的训练集来源于第一项研究工作所提供的高质量语料库,让模型可以有效的捕获待抽取语句所蕴含的语义以及语言结构信息。实验结果表明,与参照模型相比在精确率上提升了 1.61%,证明了深度学习模型在中文开放式关系抽取领域的有效性以及可行性。最后,本课题还基于第一、二项研究工作搭建了面向领域的实时开放式关系抽取原型系统。使用Kafka和Canal作为中间件,将抽取结果实时从MySQL中增量更新到Neo4j中,并提供可视化界面供用户查询抽取结果。
其他文献
无线通信技术的发展,极大地加速了移动网络数据业务量的增长,而大容量、高速率、低时延等通信指标的升级又进一步加剧了低频段频谱资源的枯竭。为了满足无线通信持续增长的需求,需要研究与开发更高频段的毫米波/亚毫米波段。而毫米波/亚毫米波段拥有丰富的连续空闲带宽资源,具有波束窄和受天气干扰影响小等优势。因此作为第五代(5G,Fifth Generation)移动通信系统通信波段的毫米波乃至于频段更高的亚毫米
随着互联网的快速发展,现有的网络体系结构已经难以满足社会的需要,网络僵化问题日益严重。网络虚拟化技术能够将底层网络资源抽象化,允许多个虚拟网络共存于同一底层网络中,是应对网络僵化的有效手段。虚拟网络映射问题是网络虚拟化领域的关键问题,其主要目标是将带有多种约束条件的虚拟网络请求映射到底层网络上,并尽可能地使网络运营商的收益最大化。利用单一的启发式算法解决虚拟网络映射问题存在着容易陷入局部最优值与收
随着物联网的发展和5G网络兴起,DDos(Distributed Denial of Service)即分布式拒绝服务攻击,破坏力越来越大。从服务商的角度来看,DDos攻击具有两个特性,首先DDos攻击流量是巨大的,其次DDos攻击时间是短暂的。基于以上两种矛盾DDos防御云服务也运势而生,它主要处理服务提供商为DDos防御需求的资源成本高以及利用率低的矛盾,给出一种按需服务的解决方案,在成本和损
薄膜晶体管(Thin Film Transistor,TFT)如今被广泛用于电子产品的液晶显示器制造中,瑕疵检测是影响此类屏幕生产质量的关键技术之一。工业检测算法一般分为特征提取与特征匹配两个关键步骤,通常设计人员设计合适的特征描述子匹配图像中的瑕疵以便分离识别,这些描述子都是基于低级特征手工设计的,泛化能力较弱。近年来,基于深度学习的目标检测取得了令人瞩目的突破性成果,这些模型往往具备强大的特征
随着无线通信技术的飞速发展,在第五代移动通信系统(5G)中,为了满足用户对于数据传输速率不断攀升的需求,信号的带宽需要更宽,并且为了在有限的频带内传输更多的信息,提高频谱利用率,无线信号的调制效率也需要更高。这样复杂的宽带信号会使得射频功率放大器(Power Amplifier,PA)表现出非常强的非线性,对通信的质量十分不利。而功率放大器是无线通信的必要部分,功放的线性度一定程度上决定了无线通信
随着智能汽车技术和车联网的发展,大量的车载智能应用相继出现,它们对服务质量、用户体验以及系统开销等方面提出了更为严苛的要求。车载边缘计算(Vehicular Edge Computing,VEC)作为提高车载智能应用性能的一种有效方法,被越来越多的人予以厚望。通过将移动边缘计算(Mobile Edge Computing,MEC)技术应用到车联网场景当中,VEC可以有效降低计算任务的时延和能耗,提
为保证低时延高可靠自动驾驶场景需求落地实现,面向低时延高可靠自动驾驶的6G车联移动通信系统(第六代车联移动通信系统)加快推进规划部署进程,通过采用毫米波通信技术来达到车联网对低时延高数据速率业务的需求;为实现高动态车联环境中快速建立可靠的定向毫米波通信,需要设计快速可靠的波束选择和追踪方法来对具有极窄波宽的毫米波信号波束方位进行快速认知、准确控制,并实现稳定可靠的链路通信。因此本论文主要研究面向智
边缘缓存技术通过在无线网络的边缘节点缓存部分业务内容对象,可以实现部分用户请求的本地响应,减少请求内容的传输时延,提高用户体验,均衡网络负载。内容推荐技术根据各用户对不同主题内容的兴趣和偏好设计个性化的内容推荐列表,引导用户对特定内容进行请求,提升用户对相关业务的依赖性和满意度。因此,将无线网络边缘缓存和内容推荐进行联合设计,能够通过内容推荐引导用户对缓存内容进行请求,从而进一步提升边缘缓存效用和
差分进化算法(DE)作为一种新兴的基于种群的随机优化算法,由于其操作简单、鲁棒性强和控制参数少等优点,自从出现以来便快速吸引了来自不同领域的研究人员的关注。然而,传统的差分进化算法在解决复杂问题时往往会表现出早熟收敛和收敛速度慢等缺点。因此,开发了许多DE变体来改进其优化性能。反向学习(OBL)是机器学习中的一种新概念,其灵感来源于现实世界中实体之间的对立关系。许多软计算算法的性能通过使用反向学习
自改革开放以来,我国市场经济日益繁茂,各类市场主体数量迅速增长。然而目前的市场监督管理体系还在沿用传统流程,不仅难以应对如此庞大的企业数量,还包含一些不必要的人工环节,如制订检查方案、抽取企业和执法人员等等环节,其抽取结果由人为操控,因而存在徇私舞弊、选择性执法、执法扰民等等问题。除此之外,如何对企业进行筛选,使得检查更加高效、有的放矢,也是一个亟待解决的问题。随着网络信息技术的高速发展,许多传统