【摘 要】
:
人工智能技术的发展促进了自然语言处理的各个领域的进展。机器阅读理解是自然语言处理领域中的一个较为新颖的研究路线。机器阅读理解的目标是使机器可以理解文本,通过用户提出的问题从文档中检索以得到答案以回答问题。机器阅读理解对自然语言处理的各种技术均有较高的要求。目前大部分的机器阅读理解模型属于抽取式阅读理解模型,这类模型从文中抽取文本片段对问题进行回答。这类阅读理解模型对问答的流畅度与上下文的关注较为缺
论文部分内容阅读
人工智能技术的发展促进了自然语言处理的各个领域的进展。机器阅读理解是自然语言处理领域中的一个较为新颖的研究路线。机器阅读理解的目标是使机器可以理解文本,通过用户提出的问题从文档中检索以得到答案以回答问题。机器阅读理解对自然语言处理的各种技术均有较高的要求。目前大部分的机器阅读理解模型属于抽取式阅读理解模型,这类模型从文中抽取文本片段对问题进行回答。这类阅读理解模型对问答的流畅度与上下文的关注较为缺乏,并且忽视了情感状态对于答案生成的影响。情感信息是人类日常交流中的重要信息,对于语言表述、思想表达有着不可取代的重要作用。因此,在机器阅读理解中引入情感信息是较为重要的。另外,在参考文档过长的情况下,情感信息较为稀疏,情感抽取模型有时无法提取到足够的情感信息。本文针对这两个问题,分别提出了融合情感嵌入的机器阅读理解方法与基于注意力的多层次情感融合机器阅读理解方法。本文的主要研究内容如下:1)提出融合情感嵌入的机器阅读理解方法。该方法首先对阅读理解数据集进行机器阅读理解与情感抽取,以从阅读理解数据集中抽取所需的答案信息与情感信息。接着将情感信息与问题和答案同时输入序列到序列生成模型中,经过编码器编码后,输入解码器中。解码器将答案信息与情感信息进行融合,最终进行解码并得到输出序列。将输出序列作为阅读理解文档的新的答案并进行评测。模型通过联合词预测损失与情感预测损失来对模型进行学习。2)提出基于注意力的多层次情感融合方法。该方法首先对阅读理解文档与问题进行阅读理解,得到问题的答案片段。然后使用情感分类模型与预训练编码器对文档的每句话进行预训练编码与情感抽取,将预训练编码输入注意力机制模块,在解码器中对每句话的情感信息进行加权以得到加权后的多层次情感信息。最终将答案片段、问题与多层次情感信息共同输入解码器中,经过解码器的解码与输出序列预测,最终得到融合了多层次情感的答案序列。基于注意力机制得到的情感信息相比于原始情感信息,融合的情感信息更加丰富,并且更加具有表达能力。3)结合了改进点实现了融合情感嵌入的机器阅读理解方法模型并进行了实验,采用Python、Num Py与Py Torch等机器学习模块,分别对融合情感嵌入的机器阅读理解方法、基于注意力的多层次情感融合方法进行了实验并对实验结果进行了评估。
其他文献
本文分析了一个不断变化发展的中国的全球化进程,探讨了中国参与全球化的进程及其在全球化进程中的地位,并阐述了中国“一带一路”倡议对中国全球化的作用、目标、成果、可能的前景和计划,以及其对欧亚空间的潜在经济影响等问题。“一带一路”倡议,包括“陆上丝绸之路”以及连接东南亚、大洋洲和北非的“海上丝绸之路”,积极推进贸易关系,促进出口多样化。这将有助于促进整个亚洲的贸易和增长。本文涵盖了“一带一路”这一倡议
“唐人传奇”是当今小说研究的重要领域,然其研究何以兴起则鲜为人知。本文将“唐人传奇”视为小说研究“四体”之一“传奇体”的典范,即一个小说史学史层面的集合概念加以把握,以晚清民国为主要研究时段,考察其研究兴起的具体过程与内在逻辑,以期管窥中国小说现代化进程,进而反思学界当下小说研究格局的合理性。本文的绪论部分,主要说明与本文相关的研究成果、本文的研究思路与创新点。论文的主体则分为三个部分:第一章“从
海绵是新药创制的源泉之一,是新型化学分子实体的宝库。其次生代谢产物种类繁多,化学结构极为丰富。在发现的新型海洋天然产物中,约有三分之一来源于海绵。Aaptamines是海绵中特有的一类生物碱,其具有独特的苯并[1,6]萘啶骨架,这类化合物具有良好生物活性,特别是在抗肿瘤方面。2014年我们课题组从南海海绵Aaptos aaptos中发现一系列C-3位胺基取代的aaptamine衍生物,并对其进行了
<正>2017年教育部考试中心提出“一核四层四翼”的概念,它是高考的“总指挥”,其中“四翼”回答了怎么考的高考基本问题。“四翼”中的“综合性”是指:高考试题要以多项活动或多过程组成的复杂情境作为载体,考查对知识、能力、素养之间的深度整合与综合运用水平;“创新性”是指:高考试题的设问方式、呈现方式要新颖,要求考生主动思考勇于探索,要求考生能在有限时间内从开放性、
随着互联网应用的普及和国际间合作的不断深入,人们希望获取到的信息不再局限于本国信息,传统的针对单一语言的信息检索技术和文本分类方法已经不能满足人们的信息检索需求。为了解决这一问题,跨语言文本分类应运而生。跨语言文本分类方法旨在解决多语言文本分类和在不同语言之间共享训练数据。现有的跨语言文本分类方法的研究重点在于语言空间的转换,常用的转换方法为平行语料法、机器翻译法、词典法、词嵌入法,这些方法存在主
背景:长链非编码RNA(LncRNA)是一类大于200个核苷酸且没有蛋白编码能力的转录本。研究现状表明,LncRNA通过不同的方式调节前脑皮质发育。实验室前期工作发现C130071C03Rik表达于神经干细胞所在的室管膜区,而且该基因的人类同源本发现与多种神经疾病相关,我们猜想其是否对发育早期神经干细胞发育产生影响,以至于影响到后续的神经元发生和白质发育,导致神经疾病。目的:研究LncRNA C1
无论数据库发展到哪一阶段,数据库性能一直都是用户和数据库厂商关注的重点。针对不同的应用场景,合适的数据库配置优化往往大相径庭。数据库管理员们经常需要根据具体应用对数据库进行配置和设计优化来满足其性能需求。然而,设计一个高效的物理配置是困难的。首先设计一个高效的物理配置本身已经被证明为NP-Hard问题;第二,业务的发展导致数据规模和查询复杂性在不断扩大,调优难度和调优频率增加。现有的数据库的物理配
2013年9月,“一带一路”倡议提出,并确定以“五通”为主要合作框架,且以“设施联通”为先行领域。至2019年底,该倡议已推行6周年,但仍有许多沿线国家保持观望和怀疑的态度。因此要想“一带一路”得到长期推行,必须要使沿线各国感受到利益提升,而经济回报往往是大多数国家所愿意达到的成果。所以,作为“五通”政策的先行领域,“设施联通”产生的经贸效应成为了许多学者关注的焦点。通过对已有研究的分析,发现现有
脱落酸(abscisic acid,ABA)在植物生长和发育过程中具有极其重要的调控作用。尽管人们对于ABA的核心信号通路已经有了一定的了解,但是参与其中的其它相关基因的分子调控机制仍需解答。本论文初步研究了ARPK1(ABA Responsive Protein Kinase 1)在拟南芥种子萌发和幼苗生长中的作用。通过分析功能缺失突变体arpk1-1(T-DNA插入突变体株系)和arpk1-2