基于多智能体通信和分类增强的嵌套命名实体识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dongshengly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非结构化文本中存在着大量以名称为标识的实体,这些实体被称为命名实体。作为非结构化文本中的重要成分,命名实体能够为下游任务提供丰富的信息,有助于提升下游任务的性能。为了识别非结构化文本中的命名实体,研究者提出了许多命名实体识别方法,其中序列标注方法取得了良好的效果。但是,由于某些命名实体存在嵌套结构,传统的序列标注方法在识别嵌套命名实体时遇到了挑战。当前的基于候选区域的嵌套命名实体识别模型在识别嵌套命名实体方面取得了一定的进步,其中大多数模型先通过实体边界识别获得准确的候选区域,再对候选区域进行实体类型分类来得到嵌套命名实体。这些模型虽然通过边界识别减少了非实体区域的输出,但也容易遗漏某些实体区域,导致边界识别的性能限制了嵌套命名实体识别的性能。为了提升边界识别的性能,本文基于数据观察,提出利用实体类型信息来辅助实体边界识别。基于此,本文提出了基于多智能体通信的嵌套命名实体识别模型。该模型中的多智能体通信模块通过实体类型标注模块来获得实体类型信息,并通过注意力机制使得边界标注模块能够在边界识别过程中利用实体类型信息。这提升了实体边界识别的性能,从而提升了嵌套命名实体识别的性能。然而,由于本文沿用之前工作以配对实体起始边界和结尾边界的方式来获得候选区域分类阶段所需的训练数据,导致本文提出的模型容易将边界错误的候选区域误识别为实体。边界错误的实体会给下游任务带来噪声,可能降低下游任务的性能。为了在候选区域分类时过滤边界错误区域,本文提出了负样本扩充策略和多任务候选区域分类策略。负样本扩充策略将边界错误区域作为负样本,引导模型学习如何区分正确实体与边界错误区域。多任务候选区域分类策略通过实体词标注任务与多任务学习来增强候选区域的表示,帮助模型过滤边界错误区域。本文在三个嵌套命名实体识别数据集上进行了实验,实验结果验证了本文提出模型和两个改进策略的有效性。
其他文献
k-mer频次计数任务是生物信息学分析工作流的基础环节,可为表征生物序列上下文提供可用材料,应用场景包括序列组装、序列比对、序列修正、突变位点检测、公共祖先发现、模体发现、基因关联分析等等。随着测序数据规模不断扩大,k-mer频次计数算法所需的存储和时间开销已成为不可回避的问题。本文分别研究共享内存环境和天河超算环境下的大规模k-mer频次计数问题,主要内容如下:(1)针对共享内存计算环境,提出一
学位
跨语言词对齐作为跨语言领域的一项基础研究,专注于两个语种之间单词级别的对齐,是其他跨语言任务的上游任务和重要支撑。随着深度学习技术在跨语言领域的普遍应用,研究者们近年来在跨语言词对齐的研究上取得了巨大的进步,但现有的方法依然存在着以下不足:1)现有的跨语言词对齐方法大都依赖于语种词向量空间之间的同构性,针对低同构性的语种对任务,这些方法不能取得令人满意的效果。2)基于对抗式的无监督跨语言词对齐方法
学位
过去的几十年中,工业化工快速发展,伴随着的环境问题也越发严峻。海洋湖泊大面积遭到化学品污染,为了改变传统化工生产中的先污染再治理的生产方式,“绿色化学”和“可持续发展化学”的概念被逐渐引入科学研究和生产领域,因此寻找符合可持续发展、符合绿色化学要求的有机反应途径迫在眉睫。水不仅是自然界生命体系中化学反应的介质,还是理想的绿色溶剂。以水作为溶剂的有机反应,具有无毒、廉价、不易燃烧等优点。由于水具有诸
学位
生物序列的模体识别是在一组核苷酸或者蛋白质序列中寻找高度相似的、重复出现的保守短序列子串。模体识别对揭露基因表达调控、研究病变机制、发现分子的结构和功能都具有重要的生物学意义。它是一个NP难问题,通常分为枚举和概率两种解决方法。然而枚举方法较为耗时,概率方法在运行速度上更具有优势却容易陷入局部最优,因此本文针对基于概率的模体识别算法存在的问题进行研究,主要的工作内容如下:(1)提出了融合排序轮盘赌
学位
在当前时代的快速发展下,材料化学已经成为国家科技发展进步中不可或缺的一部分。而聚合物材料作为材料化学的重要组成部分,凭借着自身的优势,在材料化学的开发应用中发挥着至关重要的作用。在性能上,不同于小分子材料所具有的单一性,聚合物材料集结了众多单体之间的特点,在宏观上表现出更加优越的性能。基于这些研究,开发性能多样的聚合物材料成为研究者们关注的焦点。超分子化学作为一门新兴的学科,为构筑各种聚合物材料提
学位
命名实体识别是指从非结构化的文本中识别出具有特定意义的实体,可以用于挖掘非结构化文本中的重要信息。现有的研究提出了很多的识别命名实体的方法,推动了命名实体识别任务的发展。然而很多命名实体识别的研究忽略了文本中广泛存在的嵌套命名实体,使得一些重要实体未能被识别出来。为了识别文本中出现的嵌套命名实体,有研究者提出了基于区域的嵌套命名实体识别模型,这类模型会定位实体边界以获取候选区域并分类候选区域的实体
学位
随着互联网的快速发展,社交媒体上积累了大量的用户生成内容,这些用户生成内容是许多下游应用的重要信息来源。命名实体识别是从社交媒体数据中挖掘有用信息的关键技术,然而由于社交媒体上的文本通常较短且包含较多噪音,导致传统的命名实体识别模型在社交媒体领域表现不佳。近年来有研究者提出了多模态命名实体识别模型,旨在利用和社交媒体文本相关的图像信息辅助识别命名实体。虽然现有的多模态命名实体识别模型取得了不错的性
学位
关系抽取是信息抽取中的一项重要任务,关系抽取可以快速高效的从互联网海量无结构和半结构的文本数据中抽取出语义知识。在实际的应用落地场景中,关系数据的频率通常遵循长尾分布,其中少样本类别所占比例较大。一个面向实际场景的关系抽取系统既需要稳定可靠地识别拥有大量标注数据的头部关系概念,同时又能依靠少量训练实例高效地学习新出现的尾部关系,并获得能统一识别头尾类别的融合分类器。传统有监督方法、远程监督方法和传
学位
随着现代技术和材料的发展,用于生命、医疗领域的诊断及治疗手段不断更新迭代。盐键在生物系统的结构和功能上都起着至关重要的作用,这激发化学家使用盐键来构建多孔有机骨架材料。多孔有机盐(CPOSs)是有机碱和有机酸在盐键作用形成的超分子有机框架,其温和的合成条件、低成本、永久孔隙结构等特性,使其在药物输送和生物应用方面成为绝佳候选者。在近几年的研究中,分子识别、离子交换等策略被应用到将小的活性分子或无机
学位
随着互联网的发展和各方面技术的不断更新,视频已逐渐成为人们生活中重要的信息载体。短视频的时长更短,在获取和分享上具有独特的优势,其数量也呈现出爆发式增长的态势。传统的分类方法建立在手工设计的特征之上,在短视频数量日益剧增的今天已经不能满足需求,因此急需对短视频分类技术加以改进和优化。短视频分类能够基于短视频内容添加类别标签,对于短视频的高效组织、检索和推荐等方面的研究和应用具有重要意义。现有的基于
学位