面向开放领域问答系统的片段抽取型机器阅读理解研究

来源 :华中师范大学 | 被引量 : 1次 | 上传用户:Gsea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理的发展,开放领域的问答成为越来越重要的研讨课题,它基于用户的自然语言提问,从大批候选文本中精准地找到答案,而面向开放领域问答系统的机器阅读理解技术成为其中的一个热门研究方向。机器能够更准确的理解人类文本语言,从而去构建开放领域的问答系统、自动化阅读理解评价系统以及电子化答疑系统等。这对于学习分析领域的研究,辅助教师进行答疑、阅卷、学习行为干预,帮助学生进行成绩预测和更高效的学习有着重要的意义。针对目前大多数的机器阅读理解模型的训练和预测速度慢,且模型预测准确性不高等问题,如何构建更快且效果更准确的模型,尤其是基于深度学习的机器阅读理解模型,是当前研究的重点任务。因此,本文采用预训练语言模型、深度神经网络和多层注意力机制,提出了一种基于BERT扩展的网络结构QA-Reader,并设计了一个基于自由文本的中文开放领域阅读理解问答系统。具体地,本文所做的主要研究工作如下。第一,构建机器阅读理解模型。本文设计实现了一个片段抽取型机器阅读理解模型QA-Reader。首先使用RoBERTa-wwm-ext获取文本和问题的词嵌入表示;然后使用深度可分离卷积和多头自注意力机制进行编码;再计算文本和问题的双向注意力和文本的自注意力,拼接得到最终的语义表征;最后预测答案,针对不可回答的问题,模型还计算了不可回答的概率。最后在两个中文片段抽取型机器阅读理解数据集上进行了测试,经过多种实验方案的对比,结果表明本文模型有更高的准确性和更快的训练速度。第二,设计中文开放领域问答系统。本文将机器阅读理解模型应用到开放领域问答系统中,和以往系统不同的是,本系统使用中文维基百科作为唯一的答案来源,系统可以完成阅读理解和开放QA两个任务。阅读理解任务实现基本的基于QA-Reader的阅读理解;开放QA任务实现基于自由文本的开放领域的问答。在该系统中,阅读理解模型作为一个支撑性的关键功能模块,可以较好地完成基本的阅读理解和开放问答任务。
其他文献
近年来,教育大数据背景下教育领域信息化、网络化的推进,使得教育数据资源快速积累,随着教育信息化建设进入到应用的阶段,更多人工智能技术的兴起,激发了教育数据资源应用的深度挖掘与探索,也给需要借助传统统计学处理资源的众多学科新的解决思路,同时也将研究人员从处理与甄别工作中解放出来,专注于问题的研究与分析。目前教育信息化评估领域数据资源的采集处理与应用在不断地丰富完善,更多的算法应用到中小学评估资源的处
学位
近年来,随着互联网的快速发展,人们已经进入了大数据时代,各种信息数据都在实现着爆炸式的指数型增长,数据信息量处于过载状态。个性化推荐系统作为解决信息过载问题的有效手段,现已经广泛地应用到如电商平台,电影推荐,音乐推荐等各个领域当中,对于推荐算法的不断优化和改进,不仅能够提高用户体验,还能带来一定的商业价值,推动其他行业的发展。在推荐系统中推荐算法是最为关键的部分,良好的推荐算法能快速且较为准确的预
学位
大脑是生物体的“领导中心”,支配着身体的各项活动。大脑接收并处理复杂信息的原因是神经元网络之间的连通与协调的电活动。为了掌握大脑处理信息并发送指令的过程,需要高分辨率技术来监测神经元的电活动。测量神经元电活动的传统方法有:电压钳技术、电流钳技术和膜片钳技术,具体方法是用玻璃毛细管拉制成电极,穿透细胞膜获得神经元电生理特性,理解其动作电位的机制。大脑中的神经元有上千亿,用以上传统方法的缺点是同时监测
学位
互联网的快速发展在给人们带来便利的同时,也给人们的生活带来诸多安全隐患,其中信息安全尤为重要。为提高传输信息的安全性,保护个人隐私,很多学者在从事隐写技术研究,它是利用载体的冗余,将秘密信息嵌入到载体中通过公共信道进行传输,避免第三方的怀疑,从而实现秘密信息的传递。图像是隐写常用的载体之一,传统的以图像为载体的隐写术都是以单张图像作为载体,但单张图像作为载体隐写容量有限。为适应实际需求,确保秘密信
学位
抗生素耐药形势严峻,抗生素发展遇到了前所未有的挑战。了解抗生素耐药作用机制对于有效跟踪耐药性传播、优化治疗方法以及进行新药物研发至关重要。大量关于抗生素耐药性研究成果存在于生物医学文献中,使用文本挖掘相关方法自动从文本中获取信息有效降低了知识获取成本并提高了工作效率。本文将抗生素耐药性信息抽取建模为生物医学事件抽取任务,以期从生物医学文本中自动获取抗生素耐药作用机制信息。生物医学事件抽取主要由生物
学位
随着大数据时代的到来,互联网图像资源迅猛增长,如何快速正确地从海量的图像数据中检索出用户所需的图像成为亟需解决的一大难题。在大规模图像检索的背景需求下,基于内容的图像检索技术利用图像自身的语义信息,摈弃以往繁杂的人工文本标注,提高了图像检索性能,但在基于内容的图像检索方法中,图像往往由高维的特征矢量表示,而这又带来了大规模图像特征存储量大,索引难等新问题。近年来,在大规模图像检索中引入哈希的检索方
学位
近年来,用户情感分析在个性化推荐系统中体现出越来越重要的地位,各种各样的垂直场景的移动应用极大丰富了人们社交、娱乐和学习的方式。通过手机拍照,然后配上一段合适的文案来分享和记录生活,更是成为了当代人们一种新的社交方式。基于拍照配文这一特定的场景中进行用户情感分析,能够提供更为精准的基于情感需求的个性化推荐服务。但目前针对拍照场景中的用户情感分析还较少,已有的图像描述生成任务是对进行照片内容客观的描
学位
建筑物三维模型是地球空间信息的重要组成部分,也是组成“数字城市”的关键所在,在诸如城市规划、三维导航、文化遗产保护等领域得到了广泛的应用。而随着激光雷达技术的不断发展,点云数据尤其是机载激光雷达扫描数据已经成为继矢量地图和影像数据之外的第三类重要的时空数据,其本身蕴含的信息具有二维地图和影像无可比拟的优越性。目前,根据建筑物点云数据进行建筑物三维重建是摄影测量、计算机图形学、计算机视觉和遥感社区中
学位
学习分析中学习者的学业成绩预测有利于教师进行教学决策,并采取教学干预以提升学生成绩。当前该领域主要是通过学习者的人口学信息和行为特征来预测学业成绩,忽略了文本数据所蕴含的情感与学业成绩之间的关系。因此,本文尝试利用学习情感进行学业成绩预测。具体而言,本文首先识别文本所蕴含的情感极性,然后从情感角度来预测学业成绩。为提升情感识别准确性,本文加入与学习行为相关的主题文本,包含“教师授课”、“获得证书”
学位
文本关键词抽取是从文本中把能代表该文本内容的词或短语抽取出来的一种自然语言处理技术,它是自然语言处理领域较为重要的一个研究方向,在信息检索、图书馆学、情报学等领域都有重要的实际应用价值。尤其是进入二十一世纪,随着移动互联网等信息技术的快速发展,文本类型的数据呈现出指数增长的态势。对于企业和一些组织而言,这些文本数据具有极大的潜在应用价值,然而如何快速理解、利用这些文本数据是当前企业面临的一个重大实
学位