基于深度学习的中文文档级事件抽取

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:vict1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络空间中文本信息的爆炸式增长,事件抽取作为人工智能领域的一个研究方向开始受到更多关注。通过让计算机从非结构化文本中抽取出事件发生的时间、地点、对象、动作等结构化要素信息,可以使用户感兴趣的事件内容以更加简洁精炼的方式表示出来,从而大大提高人类从海量文本中获取有价值内容的效率。虽然近年来事件抽取研究取得了巨大进展,但现有研究大多着眼于句子级事件抽取,即假设事件的全部要素出现在单个句子中。这与实际场景下需要联系上下文中的多个句子才能获取一条完整事件信息的应用条件不符。另一方面,基于深度学习的事件抽取模型,其训练效果取决于训练数据集的规模和标注质量,但针对特定领域事件抽取的人工标注数据集较难获得。为了解决句子级事件抽取信息缺失的问题,提出一种基于自注意力机制的中文文档级事件抽取模型ATTDEE(ATTention based Document-level Event Extraction)。模型通过对含有多头自注意力机制的实体识别模块、事件类型检测模块和文档级论元抽取模块的联合训练,既减轻了传统管道式事件抽取方法的误差传递,同时将事件抽取模型的抽取粒度提升到了文档级别。此外,模型在事件类型检测阶段不显式依赖任何事件触发词,既解决了实际应用场景下触发词可能缺失的问题,又避免了在数据集中标注触发词的工作量。在公开金融事件抽取数据集上的对比实验表明,ATTDEE模型能够有效解决文档级别的事件要素抽取任务。针对特定领域事件抽取数据集标注困难的问题,提出一种应用预训练语言模型扩充数据集规模的方法。通过在海量无监督金融公告上对BERT(Bidirectional Encoder Representation from Transformers)模型的参数进行调优,使模型能够更好地学习金融公告的表述规范。然后,对已有小规模金融事件抽取数据集中的每一篇文档进行论元和实体的同类词替换,再应用调优后的BERT模型对句子中除论元和实体以外的连接词文本进行改写,最终生成新的训练数据。为了增强中文场景下的应用效果,该方法提出以词组为单位的BERT调优和连接词文本改写。通过对比数据集扩充前后ATTDEE模型的训练效果,可以证明该方法能够针对特定领域的事件抽取任务快速生成高质量的标注数据集,增强数据泛化效果,提升事件抽取模型在小规模数据集上的训练效果。
其他文献
近年来,随着传感器种类的丰富和成本的不断下降,多传感器融合技术受到了广泛的研究和发展,研究者们正采用多传感器融合技术完成各种智能机器人的状态估计任务。目前,研究者们已经利用相机、惯性测量单元(IMU)、激光雷达等传感器在某些场景中的机器人轨迹导航上获得了较好的状态估计精度,但是对于地面上运动的机器人,IMU包含的尺度会缓慢漂移,保证精度和鲁棒性依然是一个非常关键且有挑战性的工作。本文提出了一种融合
氧活化测井是一种在油田中广泛使用的水流速度测量方法,它能够同时测量油管和套管内的水流速度,从而应用于吸水剖面吸水量的测量以及井下漏失问题的检查。传统氧活化仪器的测量方法仅依赖于时间谱信息,流速测量结果易受地层环境变化的影响,在动态测量时测量误差较大。所设计的脉冲中子氧活化测井仪的数据采集与处理系统采集能量谱和时间谱信息,并运用能量谱校正时间谱,提高了流速测量精度,从而满足了当前脉冲中子氧活化测井仪
随着深度学习等技术的日益成熟,汽车智能辅助驾驶系统不仅能减少驾驶员在驾驶过程中的很多操作,更重要的是能为驾驶员的安全提供保障。为了降低交通事故的发生频率,对驾驶员的疲劳进行检测,以及在驾驶员处于疲劳时对其进行提醒,采取相应的预防手段显得格外重要。如何快速,准确,低成本的感知驾驶员的行为举止和状态,进一步地促进安全行车,是国内外很多学者和汽车智能驾驶领域的热门话题。本文疲劳检测的方法则是在已经训练好
随着智能制造的快速发展,用户的需求越来越多样化,智能型数控系统对开放式有了新的要求,用户需要获取数控系统的内部数据,开发质量提升、工艺优化、健康保障以及生产管理等方面的智能应用,并且集成到智能型数控系统上,满足用户越来越多的定制化功能。智能型数控系统不仅仅是一个产品,也是一个用户可以集成自己用户软件的开放式平台。因此,本文以华中9型数控系统为目标样机,提出一种面向智能APP的数控系统开放技术。本文
数字图像是应用于人们日常生活中最基本的数据之一。与此同时,数字图像的质量也严重影响着其他视觉任务的精确度。图像复原算法旨在从低分辨率、模糊图像中重建出相对应的高质量图像来缓解这个问题。针对基于卷积神经网络的图像复原算法进行了深入研究,并针对存在的问题提出解决方案。主要研究工作和创新总结如下:第一,对基于深度学习的图像复原算法进行总结对比与问题分析。针对单图像超分辨率和单图像去雾算法的问题定义,经典
视觉惯性里程计(VIO)是实现移动机器人自主导航和定位的关键技术。近年来,随着无人机以及无人驾驶技术的广泛应用,高精度VIO系统逐渐成为机器人导航定位研究的热点。VIO系统采用视觉相机与惯性测量单元(IMU)作为感知传感器,通过融合传感器数据实现机器人位置与姿态的互补感知,进而提高机器人导航的精度和鲁棒性。本文首先对双目VIO系统算法进行了研究。利用ORB算法提取并匹配相机数据中的特征点,采用IM
随着微纳机器人技术的发展,磁性微纳机器人由于其可控性强、行动灵活等特点而受到研究学者们的广泛关注。在微纳操纵、靶向递送等领域,磁性微纳机器人具有很大的研究前景。磁性微纳机器人的传统研究多集中于单体机器人的设计制造、磁场操控以及应用功能探索。然而,随着工程化需求的发展,单体机器人难以完成复杂任务,群体磁性微纳机器人的群集控制逐渐成为该领域的研究热点。本文针对现有的群集模式单一、群体内部混乱等问题,研
现代船舶自动化程度不断提高,设备的可靠性对船舶运行起到至关重要的作用。为了保障船舶系统稳定可靠的运行,需要对系统的容错机制进行测试。通过人为的注入故障,可以加速系统的故障发生和失效过程,是作为容错实验的有效测试手段。本文以船舶控制系统中数据采集单元作为被测对象,基于物理注入方式进行故障注入系统的设计与实现。本文首先对设计需求进行分析,在此基础上,进行系统整体方案的设计和软硬件的实现。按照注入方式的
用户出行预测是基于位置的服务网络的一个重要应用。在目前的用户出行预测研究中,传统的基于模式的预测方法由于用户数据的多样性、复杂性等问题,已经难以应用于如今的大规模数据集。而现有的基于神经网络模型的方法存在着准确率不够高等问题。已有许多研究在理论层面证明了好友对用户出行的影响。通过将社交影响合理地引入神经网络模型,使模型利用用户与好友之间的出行规律相似性进行预测,对于提升出行预测准确性具有重要的意义
舰载机是航空母舰上最重要的武器装备之一,舰载机出动架次率的高低会直接影响航母的海上作战能力。然而高效地完成舰载机起飞之前的各项保障任务,是保证舰载机出动架次率的必要条件。在国内外的大多数航母上,仍然沿用着传统的人工调度的方式,随着舰载机机群规模的增大,甲板环境复杂程度的加大,使用传统的人工调度来制定保障作业计划时,花费的时间与精力越来越多,因此如何利用计算机来高效的制定舰载机最优保障调度计划,已经