基于多跳注意力的中文机器阅读理解

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:toefltoefl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能的发展,自然语言处理下的机器阅读理解任务已经成为人们研究的热点问题。中文数据集的大量涌现,掀起了中文机器阅读理解任务的研究高潮。机器阅读理解任务研究的核心内容就是文本内容推理,而现在大部分研究工作都是基于单层网络模型结构,其特点是首先利用双向LSTM或者双向GRU来得到文档词语词向量表示和查询词语词向量表示,然后使用获得的词向量表示来进行文档和问题信息的交互,最后使用注意力机制来预测正确答案。这种模型结构效果虽然比较显著,但是由于单层网络模型会导致文本内容推理不够深入,一定程度上会造成文本词语部分信息缺失,这对机器做完形填空任务的效果会产生一定的影响。针对上述情况,本文在研究了基于深度学习的机器阅读理解模型后,提出了一种新的基于多跳注意力的中文机器阅读理解模型。在相关研究工作中,深度学习模式在文本内容推理上效果是显著优于传统的学习模式,目前研究的比较深入的深度学习技术主要有两种:第一种是多跳架构(Multi-hop Architectures,MA)技术,这种技术允许模型对文档和问题进行多次迭代计算,达到文本内容深度推理的目的,且现今多跳推理技术的有效性在相关任务模型中得到了一定的验证;第二种是注意力机制(Attention Mechanisms,AM)技术的运用,这种机制允许模型关注文档中与问题相关的部分,根据文档中不同部分与查询的相关性重新加权。基于此技术,本文采用多层网络模型来处理中文机器阅读理解的完形填空任务,并将多跳架构与常用的注意力机制进行融合,设计了基于多跳注意力的中文机器阅读理解模型。该模型通过多跳架构的设计较好的将查询信息融合在文章单词语义信息里,实现文章语义的推理,且在最后的答案预测阶段,模型将更新后文档词语词向量与查询词语词向量进行点积计算,获得的结果形成一个二维矩阵并对矩阵进行操作进行更好的筛选最终正确答案,从而更好的完成机器阅读理解任务。本文使用中文填空式机器阅读理解数据集PD&CFT(People Daily、Children’s Fairy Tale Datasets)进行了实验。该数据集是由哈尔滨工业大学讯飞联合实验室首次提出。本文使用的模型结构在PD数据集中验证集和测试集上的答案预测准确率分别为65.8%、68.5%,在CFT数据集中分别为43.2%、35.2%。通过相关对比实验表明,使用本文提出的基于多跳注意力的中文机器阅读理解模型来做机器阅读理解完形填空任务时答案预测准确率会有所提升。
其他文献
泥炭沉积物中有机质氧同位素组成特征被认为是研究古气候变化的重要手段之一,学者在利用泥炭纤维素δ18O在反演古环境变化方面取得了丰硕的成果。对比不同地区泥炭纤维素δ18
地下水是人类生存不可或缺的自然资源。由于生产的发展和生活水平的提高,土壤和地下水污染越来越严重。地下水环境正经受着越来越多的污染冲击。包气带是大气水和地表水同饱
我国有大范围的岩溶区,广泛分布于西南地区、华北地区、西藏南部地区,岩溶区的社会经济发展无法避免的会涉及到岩溶管道相关的工程。经典的达西定律只适用于雷诺数小于10的多
金属卤化物钙钛矿是近几年来倍受关注的一类半导体材料,它具有卓越的光电性能,如超强的光吸收能力,超长的光生载流子寿命及载流子扩散长度,使其在太阳能电池、高分辨率显示、
滇西镇康水头山Pb-Zn矿床是保山地块镇康Pb-Zn-Fe-Cu多金属矿集区内又一重要找矿成果,主矿体呈似层状、透镜状产于上寒武统保山组大理岩化灰岩中,受NEE向断裂构造控制。其矿
随着煤矿智能化程度的提升,智能监控系统在煤矿生产安全中也发挥着愈发重要的作用。对矿井视频场景进行分类,不仅能够为井下视频监控工作提供有价值的参考信息,同时也能为矿
伴随着大数据时代的兴起,数据已成为驱动经济发展的新能源。如何从海量的数据中准确地检索到用户需求的数据,并从中挖掘出有价值的信息,已成为当下信息检索领域的研究热点。
超级电容器是一种新型绿色的电化学储能设备,它具有充电时间短、放电效率高、高功率密度、使用寿命长和对环境无污染等优点。电极材料对于超级电容器整体储能性能的影响尤为
为了抑制基于永磁同步电机的机电伺服系统中存在的由电机波动力矩导致的周期性干扰,本文将传统的重复控制推广到位置域,在此基础上,提出位置域重复控制的补偿方法,并开展应用
现在正处于21世纪信息技术发展高速迅猛的时期,社会已经进入到“信息+”时代,教育行业也在推行“信息+教育”的模式,处于这种环境下便形成了新的模式,即基于网络的在线教学系