基于BiLSTM-CRF和深度强化学习的命名实体识别方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:su18tt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别在自然语言处理领域中具有重要意义,目前主要采用深度学习的方法,如BiLSTM-CRF模型。虽然该模型中的BiLSTM结构可以捕获句子中双向较长距离依赖,但存在以下问题:1)文档级标签一致性指文档中某一特定单词序列的不同出现往往具有相同的实体类别,它是命名实体识别的有效指示,而BiLSTM-CRF模型仅针对句子进行序列标注操作,对文档级标签一致性的利用不够充分;2)仅通过简单地调整超参数或是改变网络结构,模型性能很容易达到瓶颈,其识别结果的质量难以进一步提升。针对以上问题,本文的主要工作如下:(1)针对BiLSTM-CRF模型对文档级标签一致性利用不充分的问题,本文在BiLSTM-CRF模型的基础上添加键值记忆网络(Key-Value Memory Network,KVMN)结构,形成BiLSTM-KVMN-CRF模型。KVMN保存一篇文档经过BiLSTM网络得到的所有隐藏状态向量和相应的标签嵌入向量,在CRF层进行解码前,通过多头注意力机制提取单词在文档中其他出现的上下文信息和标签嵌入,生成文档级上下文表示向量和文档级标签嵌入向量,与当前单词的隐藏状态向量进行融合。实验结果表明,与经典的BiLSTM-CRF模型相比,BiLSTM-KVMN-CRF模型在数据集Co NLL-2003上的F1值为91.48%,提高了0.28%,在数据集Onto Notes5.0上的F1值为87.42%,提高了0.43%。另外,本文还进行了消融实验,分析KVMN中的上下文表示向量和标签嵌入向量对BiLSTM-KVMN-CRF模型的贡献,结果表明两者都对模型性能有提升作用,并且两者同时使用时对于模型的提升效果大于分别单独使用时的提升效果之和。(2)针对BiLSTM-KVMN-CRF模型存在性能瓶颈的问题,本文在BiLSTM-KVMNCRF模型的基础上添加基于深度强化学习的标签修正过程,形成BiLSTM-KVMN-CRFDRL模型。基于深度强化学习的Agent作为标签修正器,设置标签修正阈值,将BiLSTMKVMN-CRF模型的标注结果中不确定度大于该阈值的标签进行修正处理。实验结果表明,与BiLSTM-KVMN-CRF模型相比,BiLSTM-KVMN-CRF-DRL模型在数据集Co NLL-2003上的F1值为92.35%,提高了0.87%,在数据集Onto Notes5.0上的F1值为88.05%,提高了0.63%。另外,不同标签修正阈值对模型性能影响的实验表明,设置合适的标签修正阈值,能有效避免对正确标签进行错误的修正处理。
其他文献
学位
核方法是人工智能领域中卓有成效的统计学习技术,是改善学习器解决非线性问题能力的关键方法。但近年来,随着机器学习快速发展,经典核已难满足愈加苛刻的拟合和泛化性能需求,甚至无法有效利用。已有理论和实验研究表明其核心瓶颈在于局部性限制与计算效能低下。而新兴的谱核与深度核分别从映射性质与复合架构两方面,各自尝试突破局部性和计算效能的问题,对核方法的进一步发展提供启发性思考。然而,目前业界对谱核和深度核的研
学位
学位
近年来,随着社交网络传媒的飞速发展,越来越多的人习惯使用如微博,twitter,Facabook以及各大论坛作为针对各类事件发表看法、态度和言论的窗口与平台。在不同的平台上,每分每秒都有数以亿计的文本信息发布,各类突发事件及热点新闻在这些平台上的传播速度大大快过传统媒体,那么,如何能够快速对这些文本进行挖掘分析,实时地从中找出当前热点,成为了一个十分有价值的研究方向。本文主要针对社交网络传媒中用户
随着互联网技术的高速发展,网络媒体逐渐走进大众的日常生活,为人们获取新闻、开拓视野提供极大的便利。新媒体时代下,网络新闻呈现出碎片化、海量化等特点,造成内容分散、信息冗余等问题。新闻聚合首先对海量多源新闻信息进行精简提炼,并在话题等层面实现新闻的关联整合,然后对内在关联的新闻进行统一组织与高效呈现,实现新闻的有序治理。为了达到上述目的,主要面临以下三个挑战:第一,新闻标题是新闻内容的精简概述,然而
伴随着现代计算应用的普及和泛计算社会的到来,程序设计逐渐成为一种大众化技能。语言作为程序设计的基本要素之一,其机制和表现形态直接影响学习者对程序设计本身的认知及应用效率。现有程序描述语言普遍呈现专业特色,具有高阶的认知特征,制约了普通学习者的学习热情和效率。因此,针对新的应用需求,程序描述语言的发展应考虑如何通过编程语言和编程工具有效降低使用者进行程序设计的认知负荷,与此同时如何让使用者获得良好的
在气象科学领域,大气波导对电磁波的传播有着重要影响。大气波导会增大雷达杂波、引起超视距传播甚至导致无线电通信信号中断等问题。大气波导反演问题是一个复杂的非线性问题,不存在解析解。对大气波导反演问题,可以建模为一个多目标优化问题。一般可使用传统数学优化算法和进化多目标优化等方法进行求解大气波导的剖面结构和传播特性,进而对大气波导的正向传播进行建模,从而模拟大气波导的正演过程。另一方面,大气波导中的蒸
实现计算机执行临床路径是医疗智能化建设的重要内容,是提高诊疗质量、可靠性的重要手段。研究表明回答集逻辑程序(Answer Set Programming,ASP)在临床路径的编码和执行方面具有表达力强、推理能力强的优势,然而对路径文档中通常以大量文字描述为主的诊疗标准也还存在着编码难、不确定性知识处理难的问题。为此,本文研究基于ASP的诊断路径表示和推理,聚焦于基于ASP的诊断标准表示和推理。头痛
自2017年第一款现象级区块链游戏“加密猫”出现后,区块链游戏行业迎来了蓬勃发展。区块链游戏通常会发行非同质化代币(Non-fungible token,NFT)作为虚拟道具,并以道具创造和交易为核心玩法。然而,由于设计方案不够成熟,现有区块链游戏的用户体验欠佳。同时,虚拟道具价格缺乏基准,游戏内易产生投机活动。这些问题不利于区块链游戏行业的可持续性发展。针对上述问题,本文将发行在以太坊上的ERC