基于记忆编码和数据增强的隐式篇章关系分类方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:gaofeinei3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章关系识别是自然语言处理研究中的一项基础性任务,其批量处理两个相邻的论元(如子句、句子或段落,统称为论元对),并自动判别每个论元对之间的语义关系。篇章关系识别给下游任务提供了重要支撑,如阅读理解和文本摘要等。隐式篇章关系识别作为篇章分析的子任务,由于其缺少连接词,难以利用诸如“因此”这类显式且无歧义的词级线索直接判定关系类型,导致隐式篇章关系识别率难以提高。本文研究集中在隐式关系分类问题,并着力解决论元关联信息的识别难问题,以及时序关系观测样本稀疏问题,分别提出、开发并检验了基于交叉记忆编码的隐式关系分类方法,以及利用数据增强的时序关系识别优化方法。具体地,本文工作包括以下三个方面(两项研究内容和一项系统开发内容):(1)结合交叉记忆和交互注意力的隐式篇章关系识别现有研究通常构建复杂的神经网络模型以提升隐式篇章关系识别性能,但往往仅使用论元间的交互信息,或者是仅仅关注论元本身的关键信息,并没有深层次多角度的挖掘论元自身和互相之间的信息。针对这一问题,本文提出了一种模拟交叉记忆的方法,通过理解一个论元的语义,影响另一个论元语义的编码记忆。本文借助对传统BiLSTM模型的计算模式改造,实现了这一交叉记忆方法,并将其嵌入到一套多层交互的神经网络架构中。本文在PDTB v2.0上测试这一方法,实验结果证明该方法在不同关系类型上取得了高于基线模型的性能,并在跟前沿(State-Of-The-Art)模型对比中,体现了具有竞争力的性能。(2)基于数据增强的隐式时序关系识别时序关系是PDTB语篇关系体系中的四类主关系之一,识别时序关系(对论元对子是否具有时序关系进行“是或非”的二元分类)也是极具挑战的独立任务之一。目前,时序关系二元分类的性能远低于其它主类(偶然性、扩展和对比关系)的分类性能,其关键因素是PDTB数据中的时序关系标记样本极为稀缺(约占所有样本的百分之七),属于低资源场景,这类规模的数据难以指导神经网络模型在监督学习的过程中获得可靠的特征辨别能力。为此,本文提出并实现了一种基于数据增强的隐式时序篇章关系分类模型,利用变分自编码器(Variable Auto-Encoder,简写为VAE)和对比学习(Contrastive Learning,简写为CL)机制,构造原始样本的变体(同质异构的样本)生成器,并利用生成的变体强化模型的机器学习能力。实验验证,结合本文所提的数据增强方法,基于RoBERTa的时序关系分类模型能够获得显著的性能提升。(3)隐式篇章关系识别系统本文结合了基于交叉记忆的隐式篇章关系识别和基于数据增强的隐式时序关系识别模型,基于前端框架Vue和Bootstrap,以及后端的Tornado框架,搭建了隐式篇章分析线上系统。用户输入相关的两个论元对子,系统便会基于交叉记忆和交互注意力模型返回两个论元之间的分类结果;同时,当用户输入一个文本时,系统会自动的识别其中的时序关系。该系统展示了本文的研究工作,同时也能对其他自然语言处理工作起到一定的辅助作用。
其他文献
问题生成(Question Generation,简称QG)是智能问答领域的重要任务之一,旨在根据给定文本,自动生成语法通顺、语义相关的自然问句。该技术能够赋予机器“自主提问”的能力,在新兴的智能教育、自动问诊和社区问答等场景中应用价值广泛。现有的问题生成研究往往采用教师强制学习方式,其驱动模型生成与标准问句相仿甚至一致的自然问句。然而,QG模型在测试阶段并无可参考的标准问句,仅能依靠非置信的信息
学位
随着城市地下空间不断发展,大断面矩形隧道因其较高的空间利用率逐渐得到广泛运用。通常情况下,暗挖矩形断面隧道多运用顶管法施工。施工中预制管节和地层相互作用主要体现为界面摩擦,且摩擦效应随着管节不断顶进而持续积累。因此,摩擦效应在顶进中不断累积会对周边地层造成持续性的扰动。由于矩形顶管的管土接触面积大,“背土效应”下摩擦作用对地层扰动影响显著高于常规圆形顶管。目前,针对矩形顶管施工地层变形分析中较少考
学位
现阶段,14天行程轨迹的查验已成常态化疫情防控的常用手段,基于轨迹大数据的实时处理有效作用于疫情防控中的时空伴随者监测、疑似病例的密切接触者排查等场景。同时,随着智慧城市建设进入新阶段,轨迹大数据计算与城市治理融合的模式及形态正在发生重大变化,表现在离线场景的轨迹分析已不能满足现状。日新月异的应用要求充分挖掘轨迹大数据的“新鲜”价值,亟需突破大规模轨迹数据的实时管理与精准查询手段,这对提升城市治理
学位
随着互联网信息资源的爆炸式增长,“信息过载”问题在搜索、电子商务、视频网站等众多网络应用中日益突出。作为解决“信息过载”问题的有效方法,推荐系统已经成为大数据时代的热门话题,在学术界和工业界得到了广泛的应用。目前,大多数的推荐系统都是基于用户的个人信息和历史行为数据进行推荐。然而,在许多场景下,推荐系统模型都是基于原始特征交互来获取信息,导致用户的个人信息和历史行为并没有得到充分的利用。仅仅在原始
学位
近年来,联邦学习作为一种新的人工智能边缘计算范式引起了广泛关注。联邦学习利用多个边缘设备作为参与者来协同训练深度学习中的全局模型,并且训练的过程不会泄露任何参与方的本地数据。在典型的边缘计算场景中,联邦学习的参与者通常为异构分布,由个人电脑、智能手机、物联网设备、网络设备等各式设备组成。在设备异构的背景下,算力较弱的设备被称为掉队者,会成为联邦学习中每一个训练轮次中的瓶颈,进而限制模型总体收敛速度
学位
基于全监督学习的目标检测在现实场景下严重依赖完整标注的数据,使得在一些现实检测场景中难以应用传统的全监督学习方法,本课题采用弱监督学习方法开展目标检测方法研究。在弱监督目标检测中由于缺乏位置标注信息,模型易使目标尤其是非刚性目标的检测结果收敛到目标最具判别性局部区域,从而导致目标的检测结果不完整。此外在进行伪标记过程中过分关注分类置信度最高的局部目标区域,使得其他正实例样本挖掘不充分。因此本文针对
学位
软件测试是软件工程不可或缺的重要环节之一,而众包测试是软件测试的一个重要分支。在众包测试中,工人执行测试任务并提交测试报告,开发者需要对提交的测试报告进行审查和评估。由于测试报告数量众多且往往质量参差不齐,开发者在人工审查过程中将花费大量时间,直接影响了众包测试效率。近年来,出现了许多自动化技术,如聚类、分类和排序技术,以减少审查数量并提高审查效率。然而面对移动应用众测报告的文本和图像信息时,已有
学位
目前动漫图片风格的电子游戏拥有越来越大的市场和受众。在该类游戏开发中,存在高质量的背景绘制需要耗费资源巨大的问题,该类游戏在制作过程中通常需要绘制不同时间条件下的差分图,并要求电子游戏的背景图片比一般动漫图片纹理及色彩更丰富,边缘更清晰,而现有的动漫风格图像迁移方法仅支持照片域图像向动漫图像单一时间节点域的映射,并不能很好胜任这项任务。本文在基于生成对抗网络的从照片生成动漫风格电子游戏背景图片算法
学位
属性级情感分类任务旨在判断句子中针对某一个属性所对应的情感倾向,近年来,引起了自然语言处理领域学者的广泛关注。由于现有的相关研究大部分都是基于英文语料的,情感资源在不同语言上的分布并不均衡,跨语言的方法应运而生。跨语言属性级情感分类旨在使用源语言中的资源帮助目标语言进行属性级情感检测和分类,其核心问题在于如何实现跨语言知识的有效共享。本文针对这一问题对跨语言属性级情感分类展开研究,具体研究内容如下
学位
基础设施的拆除和改扩建产生了巨量的建筑垃圾,建筑垃圾主要再利用方式为制作再生骨料,但是再生骨料内部存在微裂缝和孔隙,这导致其物理力学性质较天然骨料更差,产品性能更低。本文主要研究微生物矿化改性反应的主要影响因素,探讨利用该技术改性建筑垃圾的方法和改性后再生骨料的物理力学性质变化,并探索改性再生骨料在路基填料中的应用。本文主要得到以下结论:(1)通过微生物化学实验,研究各参数对脲酶活性和矿化反应过程
学位