融合语义信息的机器阅读理解方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sy_haiboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
让计算机真正理解人类的语言,一直是自然语言处理领域的终极目标。机器阅读理解任务则正是评价计算机对于人类语言理解能力的一个重要方法。近年来,随着预训练语言模型技术的问世,计算机对于语言的理解能力获得了进一步提升,这也使得许多自然语言处理任务榜单上的成绩被大幅度的提高。原本难度较高的机器阅读理解任务也不例外,在部分数据集中,一些模型的性能甚至超过了人工的准确率。这一现象引来了许多学者的思考,机器阅读理解这一难题是否已被攻克?答案显然是否定的。学者们经过研究发现,有些阅读理解数据集的难度较低,因此模型仅通过浅层次的词汇相似度和答案类型这些信息,就可以从原文中筛选出大多数问题的正确答案。本文主要讨论更高难度的对抗性阅读理解任务,即通过在文章中增加具有误导性的干扰句,生成具有对抗性的阅读理解数据集,以此来更加全面地评价阅读理解模型对于文本的理解程度。另外,本文还提出了基于结点匹配的阅读理解模型来应对这种高难度的任务。本文的主要研究内容有以下三点:(1)基于Transformer的阅读理解对抗数据生成。针对现有阅读理解数据集难度低、答案容易找到的特点,提出了基于Transformer结构的干扰句生成模型。将改写的问句和生成的虚假答案作为输入,使用端到端结构生成干扰句,将其加入到文章中,最终生成阅读理解对抗数据集。相比与现有的研究工作,本文采用训练模型自动生成干扰数据的方法,避免了人工生成对抗数据的麻烦。(2)基于语义角色标注的文章-问题对表示结构。原始的文本结构较为扁平,其中语义信息隐藏较深,现有模型难以将其充分地挖掘出来。因此,本文通过语义角色标注技术,获得语句中的谓词-论元结构,并以此为基础建图,将句中各成分的语义关系更加直观地展现出来。另外,本文还通过指代消解技术,将文章中存在共指关系的实体表述进行融合,强化了上下文间的语义联系。(3)融入语义信息的阅读理解模型。在为文章-问题对分别构建了图形表示结构后,本文为问题中的结点寻找相应的文章结点进行匹配,然后将问题中wh-word所在结点对应的文章结点作为答案结点,从中提取答案。通过和其他主流阅读理解模型的对比实验,验证了本文提出的基于结点匹配的阅读理解模型(SRLG-QA)在面对高难度的对抗数据集时,拥有良好的表现。
其他文献
托尼·莫里森的最新小说《上帝保佑孩子》(2015)以当代美国社会为故事背景,讲述了拥有深黑色皮肤的小女孩布莱德将自我从童年创伤中解放、最终成为成功的职场女性的故事。《上帝保佑孩子》自出版以来赢得了国内外的普遍关注。学者们从不同角度解读该小说,相关研究多侧重于童年创伤、言语的治愈功能、家庭关系、主体构建、爵士乐审美以及种族主义和肤色主义对非裔美国人的影响等,但较少论及小说的文体风格。因此,本文以巴赫
给煤机是火电厂制粉系统中的一个重要组成部分,其运行状态是否良好将会影响整个发电厂的安全及经济效益。经在某电厂调研发现,其使用的传统给煤机监测设备只能采集到给煤机的
2019年末至2020年初,新型冠状病毒引发的肺炎疫情在我国湖北省武汉市爆发。新冠疫情作为一起突发公共卫生事件,将国民关注的健康议题推到了新高度。健康问题关乎每一位国民的生命安全及切身利益,也影响着整个国家的进步与发展。电视媒体作为大众获取健康信息的主要渠道之一,积极承担起传播健康信息的责任,一方面向公众传播健康信息,另一方面对全民健康素养的培养起到了关键的作用。本文首先以纵向视角对我国大部分健康
现代战争中的雷达目标具有高速度,高机动性,低可探测性的特点,给雷达探测技术带来挑战。众所周知,延长雷达目标积累时间可以提高雷达对微弱目标的检测能力。然而,对于高速机
随着时代的发展,地市级博物馆对社会发展的作用日益凸显,其建设也引起了各级党和政府的重视。我国相继建成了一批规模较大、功能较全的博物馆。然而,就现状来看,管理模式的单
甲基营养型芽孢杆菌(Bacillus methylotrophicus)NJ13菌株是一株对人参锈腐病菌(Ilyonectria robusta)具有较好防病效果的生防菌株。本研究开展了NJ13菌株与人参锈腐病菌DQX01的互作研究,确定了抑制锈腐病菌孢子萌发的互作关键时间点,通过转录组测序技术分析了互作过程中的NJ13菌株的基因差异表达变化和基因表达谱,以期了解NJ13中可能参与抑制DQX01孢
随着生物医学文献数量的迅速增长,如何从浩如烟海的生物医学文献中快速有效地提取有价值的信息和知识,成为当前亟待解决的问题。化学物蛋白质关系抽取(Chemical Protein Rela
无源光网络(Passive Optical Network,PON)作为一种终端接入技术,是低成本解决宽带光接入问题的最佳方案之一。然而,目前已经大量铺设的PON系统由于其上下行接入带宽较低,难
随着国民经济与城市规模的的发展,我国的供配电网络主要采用深埋于地下的电缆线路,以提高供电的可靠性与城市建设的美观。电缆线路主要埋在阴暗潮湿的环境中,一旦受到挤压、
混凝土是当前建筑结构普遍采用的主要承重结构材料,其火灾性能研究是建筑火灾安全研究的热点。目前关于高温后混凝土力学性能的研究较多,但绝大部分研究采用的是传统测量方法