低资源机器阅读理解研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xpzcz1993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器阅读理解(Machine Reading Comprehension,MRC)社区取得了显著进展,但大多数工作是围绕英文阅读理解开展的。而英语以外的其他语言(如汉语、韩语、法语等)阅读理解,由于缺乏大规模的训练数据,还没有得到很好的解决。另一方面,一些阅读理解由于数据构建方法复杂且需要多种复杂阅读理解技能(如指代消解、跨句推理等)处理,导致训练集数据稀缺,机器和人类性能之间也存在巨大差距。为了解决低语言资源和低资源复杂文本机器阅读理解问题,本文开展了低资源机器阅读理解研究,主要内容如下:(1)双语机器阅读理解数据集构建。现在大多数阅读理解数据集都是英文的,其他语言的数据集非常少,本文从中英双语小说中构建了一个双语抽取式阅读理解数据集BiPaR。与已存在数据集最大的区别是:BiPaR的文章、问题和答案都是中英双语且对齐的。得益于双语平行特性,BiPaR支持单语、双语以及跨语言MRC任务。本文规范了抽取式阅读理解数据集的构建过程,并详细统计了数据集的各项指标。此外,通过抽样分析BiPaR数据集,本文发现回答这些小说问题通常需要非常复杂的阅读理解技能,如指代消解、跨句推理以及隐含因果关系理解等。本文也详细分析了机器与人类性能之间的差异,进一步验证了 BiPaR具有很大的挑战性。(2)基于多策略的低语言资源机器阅读理解。为了解决英语以外的其他语言阅读理解缺乏大规模训练集的问题,本文设计了三种策略来利用高资源的英文数据以改善低语言资源阅读理解。第一种是基于翻译的数据增强策略,它使用翻译器将英文数据翻译为低语言资源数据,然后将其加入到低语言资源的训练集中一起训练模型。第二种是基于高速网络的双语训练策略,它直接将两种语言的训练集混合,在训练过程中通过语言鉴别器和高速网络自动识别语言。第三种是基于词嵌入映射的跨语言知识迁移策略,它首先使用英文数据训练一个阅读理解模型,然后将低语言资源的词嵌入空间映射到该模型的英文词嵌入空间,同时将该模型参数作为低语言资源模型的初始参数,最后进行微调。本文在CMRC2018、DRCD、BiPaR三个数据集上的实验结果和分析证明了这些策略能够有效利用高资源的英文数据来改善低语言资源阅读理解。(3)基于文档级图卷积神经网络的低资源复杂文本机器阅读理解。为了解决部分阅读理解数据因构建方法复杂且要求多种阅读理解技能处理而导致的训练集稀缺问题,本文提出了文档级图卷积神经网络模型来帮助机器学习复杂阅读理解技能。该模型使用句法分析和指代分析将文章转化为文档图,然后使用图卷积神经网络建模文档图,将文档图表示和BERT预训练模型表示融合,得到最终的问题感知上下文表示,并预测答案位置。本文在BiPaR和QUOREF两个数据集上的实验结果和分析证明了该模型使得句内和句间单词交互更深,机器在指代消解和跨句推理上更加有利,即使在低资源情况下,阅读理解性能也能得到进一步提升。本文从语言资源和复杂技能两个角度出发研究了低资源机器阅读理解的解决办法,其主要贡献如下:首先,构建了一个双语的阅读理解数据集,该数据集作为了后两个研究点的支撑数据之一;其次,从知识迁移的角度提出了三个策略以利用高资源的英文数据来改善低语言资源阅读理解,这些策略不仅仅适用于中文,对其他语言也非常通用;最后,将预训练模型BERT和图卷积神经网络结合,通过建模文档图让模型在训练过程中学习复杂阅读理解技能,以解决低资源复杂文本阅读理解。
其他文献
在证券虚假陈述责任纠纷中,上市公司有责任的相关董事往往因为其具体决策和实施了证券虚假陈述行为,而需与上市公司一同承担民事赔偿责任。但立法对该民事责任的性质却未进一步的明确,导致在董事责任的范围和构成要件的认定上,理论和实务界仍存在一定的争议。责任的承担在于义务的违反,在上市公司信息披露的过程中,董事既承担了法定的信义义务和信息披露的保证义务,亦承担了不得侵害第三人合法权益的侵权法上的义务,因此该责
学位
近年来,随着网络经济的发展,计算机网络在企业日常生产经营中正扮演着越来越重要的角色,大量诸如反向刷单、删除源代码、恶意修改线上商品价格等一系列利用计算机网络破坏企业生产经营的失范行为也层出不穷。虽然上述行为因在手段与对象上具备不同于传统罪状的网络特性而使其在接受犯罪评价时遇到诸多“不适”困境,但究其本质二者实际上属性相同,上述差异的形成很大程度上归因于传统解释观点将本罪罪状表述中大量的时代性要素也
学位
在我国社会信用缺失严重的情况下,司法性失信惩戒机制是执政者解决社会信用问题的重要制度安排,其对解决执行难问题、提升司法公信力、建设社会信用体系具有重要意义。司法性失信惩戒机制,指的是司法机关对违反法律规定的失信行为人进行司法处置,并向社会公开以及向其他惩戒主体共享信用信息,以实现司法性惩戒、行政监管性惩戒与市场性惩戒联合的惩戒机制。其运行涉及司法性惩戒的实施、信用信息的共享、司法性联合惩戒的落实及
学位
司法与技术的结合一直受到法学界和实务界关注和研究,特别是近些年来,网络信息技术与司法的深度融合提出了智慧司法这种新兴审判方式。智慧司法在司法信息化基础上,借助“人工智能+”对传统司法进行改革,其出现和运用既有学理支撑,也适应了现实需要。但是,无论在实践层面还是理论层面,智慧司法都尚不完善,难以达到人们的预期。因此如何更好地推动智慧司法的发展,发挥其技术层面优势,是我们需要关注和解决的问题。本文尝试
学位
元学习是一种新的机器学习方法,用于解决小样本学习与复杂问题,并作为实现通用人工智能的方式和基础。元学习研究取得了一定进展,但仍存在许多急需解决的问题,如无法在样本数极少的情况下完成对模型参数的准确更新,自适应过程难以充分利用数据特征信息,以及难以避免模型分类器参数初始化的值对性能波动性的影响。针对这些问题,我们将适用于处理高维复杂数据的李群引入元学习,李群能够在还原数据在高维空间中几何结构的基础上
学位
随着信息时代的发展,互联网行业已经成为经济发展的主要推动力,反垄断执法需要不断与时俱进才能更好地迎接互联网等新兴行业。2016年“滴滴优步”的合并是否应当进行事先申报引发热议,至今官方尚无结论。作为典型案例,它体现出我国现行经营者集中申报制度亟待完善,尤其是申报标准对互联网行业涵盖不足的问题。互联网行业呈现网络效应、用户注意力竞争、创新竞争、双边平台等不同于传统行业的特性,由此形成竞争不再与价格紧
学位
随着自身免疫疾病发病率的上升,及时并准确地对其诊断成为研究人员亟待解决的问题。在诊断与抗核抗体相关的自身免疫疾病中,需要判读用病人血清培养的HEp-2细胞间接免疫荧光(Indirect ImmunoFluorescence,IIF)图像的染色模式。传统的做法是依靠医生直接来判读IIF图像的染色模式,其正确性依赖于医生的经验和专业知识。因而,利用人工来判读不仅具有主观性,而且具有高代价性。为此,医学
学位
近年来,强化学习逐渐成为人工智能领域中的研究热点之一,并在机器人控制、棋类游戏、电子游戏等众多领域取得了令人瞩目的成绩。策略单调提升的优化算法是当前强化学习中的一个重要研究分支,在离散型和连续型控制任务中都取得了良好的性能表现。在此类算法模型进行更新学习的过程中,通常使得学习策略单调提升,但由于其策略代理目标函数的特殊结构,在训练中可能会导致算法更新缓慢,并且过高的方差会影响算法的收敛速度。本文针
学位
随着智能手机的普及,移动互联网及全球定位技术的发展,空间众包这一新概念被提出。空间众包中的定价算法决定了向任务请求者收取的服务费用和向工人分发的劳动报酬的金额,以此提高用户参与众包服务的积极性,保障空间众包平台的各种利益。现有研究存在用户的价格偏好学习速率慢,忽略价格偏好动态性以及双边定价算法缺失等问题,因此为了解决这些问题,本文的主要工作如下:面向确定价格的单边定价算法研究:空间众包中面向任务请
学位
跨境电子商务依托互联网技术的发展成为当前增长最快的零售渠道之一,与此同时,出口产品信息的翻译需求日益突显,面向电商领域的机器翻译研究愈发重要。但是电商领域机器翻译系统构建过程中存在两个主要的问题:电商领域公开可利用的数据集稀缺和不同地区不同语言背景的电子商务平台的产品信息描述文化风格差异较大。针对这些问题,本文首先从不同电子商务平台获取了不同语言的产品信息数据,然后基于获取的电商领域单语数据,分别
学位