基于多层自注意力机制的机器阅读理解模型研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:sparkman007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解是自然语言处理领域的研究热点之一,也是人工智能在处理和理解人类语言进程中的一个长期目标。机器阅读理解研究的主要内容是给出文本和问题,让机器按照文本中的内容和含义回答问题。随着人工智能的发展,使用基于深度神经网络的模型解决机器阅读理解的任务成为主流。现有的机器阅读理解模型可以分为两部分组成:文本表示部分和答案选择部分。在文本表示部分,多数模型是以LSTM或GRU为基础的,但由于这种RNN类网络对文本的连续序列学习的特性,使得模型提取到的文本语义存在长距离关联语义信息消失的问题,且模型在训练中比较耗时。为了解决长距离语义信息消失的问题,很多模型引入了注意力机制来和RNN类网络结合。但目前很多模型对注意力机制的应用是不够细化的,没有考虑到使用注意力机制在文本的多个语义层次上进行文本表示的效果。针对上述问题,本文对使用注意力机制在多个层级上对文本表示的方法进行了研究,主要研究工作如下:1)提出一种基于多层自注意力机制的机器阅读理解模型MHS。该模型根据文本的层次结构,将文本划分为多个独立句子之间的关联性、句子内部单词之间关联性和来自不同句子的单词之间关联性等多个层级,在这些层级上仅使用自注意力机制对文本进行语义信息的提取和表示。经在斯坦福机器阅读理解数据集SQu AD1.1上的测试和实验,MHS取得EM值71.2%和F1值81.5%的结果,上述性能指标均优于基于RNN类网络的模型。在斯坦福官方后期的SQu AD2.0数据集上,MHS取得了EM值68.3%和F1值70.1%的结果,该结果要优于斯坦福官方的基线模型Doc QA和BNA。2)研究MHS模型效果的稳定性问题。对MHS和基于RNN的模型的稳定性进行了对比实验,在数据变化幅度大的数据集上,MHS模型的F1值的浮动范围在1.7%内,而基于RNN的模型的F1值浮动范围在5.9%内。实验结果表明,相比基于RNN的模型,MHS的稳定性更好,在数据变化幅度大的数据集上泛化能力更强。3)研究多层自注意力机制中层级之间的连接方式对模型效果的影响。本文在多层自注意力机制中引入了一种基于软阈值函数的改进连接方式,并在SQu AD1.1数据集上与常用的连接方式,即Dense Net和Res Net进行了对比实验。使用基于软阈值函数的改进连接方式,相比于Dense Net,使模型的F1值提高了4.7%,相比于Res Net,使模型的F1值提高了1.8%。上述实验结果表明,基于软阈值函数的层间连接方式能够提高MHS在数据集上回答问题的效果。
其他文献
禾谷镰刀菌是小麦赤霉病的主要致病菌,其真菌次生代谢产生的单端孢霉烯类B型毒素,如雪腐镰刀菌烯醇(nivalenol,NIV)、脱氧雪腐镰刀菌烯醇(deoxynivalenol,DON)和其它乙酰化衍生物等污
2007年下半年以来,我国居民消费价格指数(CPI)连创新高,百姓感到生活成本在迅速增加,理论界治理通货膨胀的呼声连绵不断,价格管理部门也出台了相关的价格干预措施,政府已面临通货膨
对大豆种皮过氧化物酶(SBP)进行了部分纯化,并对其标记的抗体的效价和稳定性进行了初步测定。大豆种皮用自来水提取,提取液经pH4.5沉淀去杂蛋白、DEAE—cellulose离子交换柱层析以
试验设计(design of experiment,DoE)是关于如何按照预定的目标来制订适当的实验方案,以便于对实验结果进行有效的统计分析的数学原理和实施方法,一般通过空间填充特性和投影特性评估DoE方法的优劣。近年来,代理模型等数据驱动的设计方法逐渐兴起,而良好的试验设计是保证数据驱动的设计方法有效性及结果可靠性的必要前提。目前,无约束空间的DoE研究取得较大进展,但对于约束空间中的试验设计的
目的:通过骶管注射合并熏蒸与常规临床保守治疗(内服非甾体抗炎药尼美舒利、特定电磁波谱治疗仪及电动牵引)临床观察和对比,研究骶管注射合并熏蒸治疗腰椎间盘突出症的疗效,
构建通用型转铁蛋白融合表达载体,利用PCR方法扩增编码人转铁蛋白N端半分子的基因片段,通过酶切、连接、转化等分子克隆方法构建通用型转铁蛋白融合表达载体。PCR扩增了一个
通过手性布朗斯特酸的三重活化策略实现了原位产生的邻亚甲基苯醌与吖内酯的不对称[4+2]环加成反应。该反应有着广谱的底物适用范围和官能团兼容性,为构建含有连续的季碳和叔
隔代教养的状况、水平如何,在很大程度上决定着家庭教育的质量,进而关系到社会的长远发展。我们认识到隔代教养的利弊在发挥其正面影响的同时,需要克服种种负面影响,给孩子一