【摘 要】
:
在一段文本中,一个实体可以有多种不同形式的实体表述,这些实体表述之间的关系被称为共指关系。共指消解任务的目标就是将文本中具有共指关系的对象整合到一起,从而消除指代表述的歧义性,增强机器对自然语言的理解。表述检测和共指关系计算是共指消解的关键步骤,当前端到端的模型实现在此方面还存在可优化空间。在表述检测方面,当前模型有着最大长度限制,其表述计分函数也可进一步细化,由于表述检测任务与共指消解任务存在着
论文部分内容阅读
在一段文本中,一个实体可以有多种不同形式的实体表述,这些实体表述之间的关系被称为共指关系。共指消解任务的目标就是将文本中具有共指关系的对象整合到一起,从而消除指代表述的歧义性,增强机器对自然语言的理解。表述检测和共指关系计算是共指消解的关键步骤,当前端到端的模型实现在此方面还存在可优化空间。在表述检测方面,当前模型有着最大长度限制,其表述计分函数也可进一步细化,由于表述检测任务与共指消解任务存在着差异,仅依靠共指消解任务来训练表述检测模块非最优选择;在共指关系计算方面,模型并未考虑实体表述间的上下文关系。此外,高阶共指消解模型可进行更准确的关系计算,现有高阶算法的实现均依赖共指得分,但错误的共指得分可能会影响最终算法表现。基于上述问题,本文进行了以下方面的研究:1)提出SEUL(Start-End mention score and Unlimited Length)表述检测优化方案,通过无长度限制的实体表述检测策略,增加关于头尾向量的表述得分计算,提高了实体表述以及共指消解结果的召回,同时进行表述检测模块的预训练,使模块的表述检测能力得到加强,进一步提高整体性能表现。2)构建基于上下文匹配的共指得分。考虑到先行词(即被指代对象)可以取代与其具有共指关系的实体表述在文本中的位置,本文计算了先行词与实体表述上下文的匹配程度,来表征这一层面的共指关系,以此作为共指得分的一项补充,为共指关系的判断提供一个新的视角。3)提出基于胶囊网络的高阶共指消解算法:Capsule Merging算法。Capsule Merging算法无需共指得分的参与,仅通过胶囊网络的动态路由方式便可实现局部特征聚合,从中提取出相应的全局特征,之后将该全局特征引入到共指关系计算中,从而实现高阶共指消解模型。最后,本文以Onto Notes英文数据集作为实验数据,在基于Bert的端到端共指消解模型上进行了多组对比实验,证明了上述优化方案和Capsule Merging算法均能有效提高共指消解模型性能,并通过融合实验综合地验证了本文的各项工作,其总体性能优于其它对比模型。
其他文献
神经影像技术能够以非侵入的方式对大脑结构和功能进行成像,通过分析该类影像数据可获得大脑结构形态与功能连接等信息。如今神经影像技术正不断发展,帮助神经信息学研究者通过多种角度分析并探寻更深层次的神经精神疾病病理机制,实现神经精神疾病的辅助诊断。尽管如此,神经影像数据模式分析研究的成果产出和转化仍然受制于一系列亟待解决的矛盾:(1)有限的数据和计算资源与数据驱动机器学习的支撑需求;(2)有限的时间精力
近年来,由于数据量的增长、运算能力的提升和训练算法的创新,深度神经网络已经成功地应用于许多实际场景中。然而,这样的成功在很大程度上依赖于大量昂贵的有标签数据。为此,研究人员提出了同时利用少量的有标签数据和大量的无标签数据来促进深度神经网络学习的半监督学习方法,并且在众多任务中都取得了出色的效果。针对有标签数据数量有限的问题,本文提出了两种半监督学习方法来缓解深度神经网络对有标签数据集的依赖。针对现
冷凝器是在能源、化工、电力、制冷等领域中广泛使用的换热部件。通常根据制冷剂的相态将冷凝器内的传热过程分为过热区、两相区和过冷区,即传统的三区模型。三区冷凝模型在单相区与两相区之间出现换热系数突变,与实际不符,机理上无法解释。过热冷凝是冷凝的开始阶段,研究过热冷凝区的换热机理,正确认识其规律。本文通过实验及数值模拟对过热冷凝区域的传热性能和流动特性进行研究。设计并搭建过热冷凝实验台,分别在内径5mm
淀粉、纤维素作为自然界存储量最多的两种天然高分子材料,其葡萄糖单元上的多羟基所赋予的强极性和亲水性等特征却严重限制其在复合材料领域的应用。为提高淀粉、纤维素的界面反应能力,本论文以H2O2与低浓度Cu2+催化剂可控氧化反应,对其进行羧基化改性。在此基础上,将所制备的羧基淀粉(OST)和羧基纳米纤维素(OCNC)分别用于增强羧基丁腈橡胶(XNBR)和热塑性淀粉(TPS),利用界面反应显著提高XNBR
预压装配式框架结构是一种节点整体性较好、自复位能力强的装配式结构体系,对我国装配式结构的发展具有重要的意义。目前国内外针对预压装配式框架结构的研究虽已取得一些成果,但对此类结构的抗震性能评估和抗震设计方法尚未完善。我国抗震规范采用小震弹性设计方法,其隐含的对所有结构取统一的反应修正系数2.86而忽略结构延性和耗能能力的差异的设定,不能发挥预压装配式框架结构的性能优势。为研究此类结构的抗震性能和抗震
由于城市居民交通出行需求的不断增长,道路交通的方向性协调控制需求日益明显。为了实现城市交通信号控制的精细化,协调对象的选取不应停留在子区层面,而需要进一步细化到有向路径连线上。对此,本文以车辆轨迹数据作为数据支撑,以协调路径集作为研究对象,从协调对象的选取、协调模型的建立以及控制方案的评价等方面展开相关科学研究,着重区域协调路径集的构成与优选方法、面向区域协调路径集的信号控制模型、协调路径集控制效
视频目标分割是计算机视觉中一个重要的研究方向,其任务是在视频序列中,逐像素地分割出每帧中感兴趣的目标区域。视频目标分割可以应用于视频编辑、视频压缩等实际场景中,也可以为动作识别、视觉跟踪等任务提供预处理,具有较高的研究价值与广泛的应用场景。然而,在视频目标分割中,待分割视频可能存在多种复杂情况如目标遮挡、背景干扰等,目标分割难度高,并且算法的精度与速度难以同时兼顾。针对如何解决多种分割难点,同时兼
热作模具钢服役环境恶劣,需要承受高温高压、热疲劳、高温熔体冲蚀等过程,恶劣的服役环境导致一系列失效如:变形、熔蚀、磨损、热疲劳开裂等,提升热作模具钢的寿命是工业领域一个重要的问题。本文利用空心阴极离子源辅助离子渗氮设备,分别在N2-H2、N2-CH4、N2-H2-CH4气氛中对H13钢进行低温离子渗氮与氮碳共渗,用光学显微镜、扫描电子显微镜(SEM)、X射线衍射仪(XRD)、X射线光电子能谱仪(X
聚对苯二甲酸二乙酯(PET)是一种典型的线性热塑性树脂材料,被广泛用于制造纤维,薄膜和饮料瓶。然而,PET为人类带来生活便利的同时也对全球环境造成不利影响,因为其难被降解,造成了严重的白色污染。最近,学者们经分子改造获得了一个快速降解PET的耐热角质酶,本研究在大肠杆菌BL21(DE3)中重组表达了该角质酶,研究了其相关酶学性质,并使用物理手段(超声波辅助)和生物手段(分子改造)来促进LCC降解P
在众多生信分析问题中,生物序列k-mer频次信息因蕴含着关键的序列特征,被序列比对、重复检测、序列校正、物种鉴定、motif发现及序列纠错等众多生信软件所采用,是其应用中不可或缺的一步。面对大规模序列数据分析,k-mer频次信息的存储空间消耗及统计速度慢带来的问题变得不可忽视。本文针对当前k-mer频次统计工具内存及磁盘空间消耗大的缺点,根据组装后序列数据统计规律,提出了一套内存消耗低、运行速度快