基于双向Transformer编码器及分段卷积的关系抽取研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:gzh0791
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取(Relation Extraction,RE)是信息抽取(Information Extraction,IE)的重要组成成分,一般指的是利用信息抽取技术从序列中抽取实体对之间的语义关系。当前语义关系抽取领域中还存在多种有待解决的问题,例如限定域语料的获取和预处理、从限定域到开放域、远程监督的错误标注问题等等。因此,解决语义关系抽取任务中存在的问题依旧是研究者们研究的课题。本文对有监督的语义关系抽取模型以及不平衡学习进行了研究,提出了基于双向Transformer编码器及分段卷积的关系抽取算法和基于不平衡学习的关系抽取算法。本文的主要研究内容以及成果如下:(1)针对基于有监督的语义关系抽取任务所存在的问题--提取精度有待提高,本文提出了一种利用预训练Bert语言模型和分段卷积池化操作来进行关系分类模型。由于经过预训练的Bert模型能够捕获序列的内部依赖信息,本文也使用该模型来获取序列的语义表示。本文利用分段卷积池化操作从剩余噪声语料中获取对抽取结果有影响的语义信息。最终模型的评估指标F1值达到了 89.77%,比基线模型提高了 0.25%。(2)本文从多个角度研究了不平衡学习,最后从算法级方法和数据级方法提出了基于不平衡学习的关系抽取解决方案。针对算法级方案,本文提出了焦点损失函数来代替传统交叉熵损失函数,最终模型的评估指标F1值达到了 89.95%,比基线模型提高了 0.7%。针对数据级的方案,本文提出了数据增强方法来扩充数量极少类别,最终模型的评估指标F1值达到了 89.81%。(3)本文为了验证关系抽取模型的性能和可移植性,同时在SemEval 2018Task8数据集上进行了四组对照实验。SemEva12018 Task8数据集是第一个标注恶意软件报告的数据集,并且利用MAEC标注了 84篇APT报告。最终实验效果非常明显,F1值获得了 99.52%,说明了本文模型的迁移性。
其他文献
1992年5月26—29日,中国中外关系史学会第3届全国会员代表大会暨第4届学术讨论会在扬州师范学院举行。共有50多名会员出席大会。中外关系史领域的吴廷璆、姚楠、马克尧、谢方
会议
《种族与经济》一书,是作者沃尔特·E·威廉姆斯多年收集研究材料、写作和整理手稿后所完成的作品。作者写这本书的目的是想把简单的经济分析运用到那些黑人曾今甚至是现在依
在福特基金会的资助下,浙江省社科院“社会——心理——医学新模式帮助卖淫妇女项目组”于1997年至2000年开展了以社会——心理——医学新模式帮教卖淫妇女的实验工作。其具
会议
《共产党宣言》(以下简称《宣言》)中对全球化思想进行多维度延伸,其中,在经济层面突出了全球化的深入发展,打通了人们的实践领域,促进世界市场与资本主义大工业之间形成密切关系,为经济全球化提供了相对宽松的空间;在政治角度,渗透到资本主义、社会主义和世界贸易中,揭示了资本主义全球化的本质,而无产阶级作为资产阶级的掘墓人,在某种程度上代表着先进生产力,推动了社会的前进历程;当文化方面的全球化思想进入到大众
随着无线通信技术的高速发展,现代无线通信系统对天线宽频带、小型化、高增益、易集成等性能提出了越来越高的要求,因此高性能天线的设计成为业内研究的热点。传统的天线设计过程缺少清晰的物理概念和意义,因此对于分析和解决某些天线问题存在难度。近些年,特征模理论广泛应用于各种天线的分析和设计中,特征模理论具有清晰的物理概念,利用特征模理论得到的不同模式信息,能够描述各种形状的天线及散射体的谐振特性和辐射特性,
中国经济发展已经进入不同以往的新常态,政府在力争保持经济仍然以中高速度增长的整体态势以外,更加重视探索解决过去发展所带来问题的新途径,正在推行的供给侧改革就是大力实施的改革方向之一。这表明产业调整要与当前的经济态势相互匹配。与此同时,中国的工业化进程对于良好的生态环境状况、舒适的居住环境造成了威胁。严重的空气和水污染,迫使中国必须加快优化和改善其现有产业结构的步伐。面对资源枯竭、环境污染、生态失衡
最近,中国对提高国内酶研究,提高食品生产和改善食品保质期的书籍需求日益增加。翻译相关文本可能会给中国的有关研究提供一种新动力,这也可能会给关注着酶,食品生产以及食品安全的国内学者提供一些参考,其目的就是为了改善国内的食品工业。本翻译报告是基于《食品工业》一书,该书涉及大量的生物和化学知识。该书的第14章和第16章被选为翻译任务,这两章属于科技类文本,含有大量术语,逻辑清晰,表达客观。在翻译过程中,
第五代(the fifth generation,5G)移动通信场景下无线信道表现出的新的传播特征及其对5G关键技术产生的影响对信道建模提出了新的需求。考虑到信道模型是通信系统设计和性能评估不可缺少的一部分,能够准确、高效的覆盖5G各种应用场景和关键技术的信道模型是迫切需要的。因此本文主要对目前流行的三个无线信道模型:准确定性无线信道生成器(Quasi Deterministic Radio Ch
股权众筹初次诞生于2011年的“互联网+金融”的创意组合之下,有着低成本、高效率、服务草根的互联网天然优势,是集众人之财缓解小微企业融资困难、融资费用高的有益途径,同时也是我国大力发展普惠金融,推动金融服务供给侧改革的有力举措。在经历了初期萌芽和爆发增长阶段后,现在的股权众筹处于行业洗牌阶段,同时也暴露出诸多问题,仅仅依靠行业自身优胜劣汰的“丛林法则”是远远追不上新时代的发展脚步的,如何用“看得见
现实问题中,很多问题最后都会归结为最优化问题,最优化问题也是研究的热点。演化计算作为解决最优化问题的一种方法,具有多个优点:使用方法简单、具有良好的通用性、可以避免陷入局部最优解等。但面对复杂问题时,演化计算需要进行较多次迭代才能收敛到全局最优解,计算量较大。迁移学习是将历史数据或者解决相似问题时的知识迁移到需解决的问题中,以解决数据较少、计算复杂等问题,同时可以提高问题解决的效率。现阶段已有部分