面向命名实体识别的领域自适应算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:feixiang20090911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言处理的任务(Natural Language Processing,NLP)之一,目的是检测出文本中的实体并且将其划分至预定义的类别中,可以实现自动化地从文本中挖掘有价值的信息,在不同自然语言处理下游任务中充当着非常重要的基础模块。基于深度学习的命名实体识别技术依赖于大量的人工标注数据,为了减少人工标注成本,可利用通用领域中的标注数据训练模型,再将模型迁移到目标领域使用,这类方法被统一称为领域自适应方法(Domain Adaptation,DA)。然而,这种迁移方法存在着不足:不同领域文本的行文风格和上下文模式有差异,领域之间存在领域分布偏差,从通用领域训练出来的模型迁移到目标领域时模型的性能会有较大的损失。针对上述情况,本文首先提出了利用对抗训练方法来缓解领域分布偏差问题,对抗训练可以将源领域和目标领域映射到同一的表征空间从而减小领域沟壑;同时在对抗训练的基础上,本文进一步提出实体感知对抗训练模型(EntityAware Adversarial Training Model,EAAT模型),该模型利用实体感知注意力机制来引导对抗训练,在训练过程中给予实体特征更高的关注度,从而完成实体特征的细粒度对齐,实验证明该模型可以有效提高跨领域NER的实体识别效果。然而,目前的跨领域模型只能缓解领域分布差异,领域之间的差异仍然存在。为了解决领域差异问题,本文进一步提出了结合实体增强的自训练模型(Self-Training Model Combined with Data Augmentation,STDA模型),该模型以EAAT模型为基础模型,挑选出高置信度的目标域预测数据作为训练数据重新训练模型,并引入自训练模块迭代地增加伪标签训练样本,自训练方法利用了目标域高置信度数据作为训练集,因此保证了最终模型与目标域数据处于分布一致的参数空间中,不再存在领域差异问题。此外,STDA模型在自训练模块的基础上还引入了实体数据增强模块,进一步扩充了伪标签数据,提升了模型性能。本文在三个数据集的多个领域迁移方向上验证了本文提出的EAAT模型和STDA模型的有效性,取得了目前面向命名实体识别的领域自适应任务上的最优实体识别效果。
其他文献
近年来,我国民用机场各类突发事件频发,机场应急管理人员作为应急救援的主导核心,其胜任力会对应急救援的成效产生重要影响。为全面提升机场应急救援效率及管理能力,必须对机场应急管理人员胜任力评价模型进行系统的研究。首先,通过对机场应急管理人员的概念和工作概述、胜任力内涵及特征模型的理论研究,对本文所研究的民用机场应急管理人员胜任力的内涵进行界定。其次,运用文本分析、问卷调查等方法,基于胜任力理论和特定的
学位
广域信息管理系统(System Wide Information Management,SWIM)作为航空信息共享平台,采用面向服务的结构实现空中交通管理(Air Traffic Management,ATM)业务数据的传输和共享。为了保护SWIM共享数据的安全和隐私,本文研究了一种基于区块链的SWIM共享数据跨域认证方法。主要研究内容包括:第一,从功能角度介绍了SWIM系统的概念架构,并逐层研究
学位
近年来,作为我国货运领域的重点发展对象,冷链物流行业发展势头强劲,在我国建设社会主义现代化的伟大征程中做出了杰出贡献。为了规避单一运输方式的缺陷,最大限度的提高运输效率,当前的货物运输通常使用两种及以上运输方式进行结合运输。随着航空运输在经济社会发展中的地位越来越重要,冷链货物空陆联运成为冷链运输的主要方式之一。多式联运作为不同运输方式相结合的运输系统,在实际工作中因操作、管理等方面存在差异而极易
学位
飞行员作为民航事故中危险的直接面临者,其能力水平将直接影响飞行安全。因此,构建可靠的飞行员能力测评方法,在保障飞行安全的过程中起到至关重要的作用。飞行员在驾驶过程中的操作水平和安全绩效受多种能力影响,已有研究证实,在由人为失误导致的飞行事故(征候)中,绝大多数涉及空间感知、信息处理、合作交流等因素。故本研究聚焦于非技术性能力维度,探究与飞行员能力水平相关的测评指标及方法,并以此为基础开发飞行员能力
学位
本文通过对锂离子电池热失控过程的产热情况进行建模仿真,定量分析了热失控过程中锂电池自身产热和热解气体燃烧对锂电池热失控传递的影响,为锂离子电池航空运输安全性分析提供理论基础。以100%荷电状态的18650型锂离子电池为研究对象,首先基于火焰高度估算热解气体燃烧热释放速率,建立了受限空间内锂离子电池热解气体燃烧的产热模型,模拟受限空间内热解气体燃烧导致的环境温度变化并进行验证。其次以阿伦尼乌斯公式为
学位
强化学习以其优秀的序列决策能力,吸引了众多研究人员的关注。近年来,结合了深度学习技术的深度强化学习在众多领域都取得了突破性的进展。然而,深度强化学习算法常常因为采样复杂度过高的问题,无法广泛应用在现实环境的任务中。模型化强化学习通过构建环境模型,能提高样本利用率,有效降低采样复杂度。但是构建环境模型存在的误差会影响到策略的优化,最终影响算法性能。基于不确定性探索的方法利用环境的不确定性信息指导策略
学位
目标检测是计算机视觉领域的基础研究方向,其主要目的是区分与定位目标,广泛应用于自动驾驶,视频监控,机器人视觉等。随着深度学习的发展,目标检测的性能大幅度提升,但目标误分类问题仍是巨大的挑战。据分析,其主要来源于三个方面:其一,类别分布不平衡,数据采集于实际场景,由于类别出现的概率各异,数据集往往会出现长尾分布,而不平衡的分布及部分类别样本的稀缺使模型无法学习到充分的特征表达,影响模型性能;其二,类
学位
锂离子电池具有能量密度高和无记忆效应等优点,被广泛应用于消费电子产品、动力能源和航空产品等。然而,火灾和爆炸等安全问题对其大规模应用形成阻碍。尤其在航空运输事故中,锂离子电池会在热失控阶段释放有毒物质和可燃气体,从而对所处的客舱、货舱或隔间等环境造成燃爆危险。本文主要以市场上大规模商用的18650锂离子电池为研究对象,基于锂离子电池热滥用实验平台,探究不同荷电状态(SOC)电池的热失控过程和燃爆特
学位
随着复合材料结构在航空、汽车等领域中的大量应用,复合材料与金属连接问题不可避免,异质材料连接逐渐成为工程应用的关键技术之一。相较于传统的机械连接,胶粘连接能够获得光滑的气动外形、降低结构重量,实现载荷在复合材料与金属材料之间的有效传递。然而在实际服役过程中,复合材料胶接结构在冰雹、碎石以及维修工具等冲击下容易产生被胶接件脱粘、层合板分层等内部损伤,从而严重影响胶接结构的力学性能。此外,对于航空航天
学位
民机客舱火灾人员逃生的研究受限于安全性、经济性、环保性等因素,利用计算机仿真软件可更安全便捷地模拟客舱发生火灾时的人员逃生过程,分析舱内火灾在不同时段内各因素对人员逃生过程的影响,从而提出可行性建议。首先分析了影响客舱火灾人员逃生的各类因素,主要为客舱环境、火灾产物、客舱人员三大类,为后续模型的建立奠定基础。接着使用火灾模拟软件Pyro Sim建立C919的客舱火灾模型,假设发生燃油泄漏火灾,设定
学位