【摘 要】
:
问题生成(Question Generation,QG)是指机器主动对一段文本进行提问,生成一个自然语言的问题。神经问题生成则是完全采用端到端的训练方式,使用神经网络完成文本和答案到问题的转换,是自然语言处理中一个新兴而又重要的研究方向。问题生成在学术界和工业界有着广泛应用,也引起了许多研究人员的兴趣。本文首先对该任务使用的模型框架进行了选择,其次对该模型下存在的问题进行改善,最后将该模型应用到更
论文部分内容阅读
问题生成(Question Generation,QG)是指机器主动对一段文本进行提问,生成一个自然语言的问题。神经问题生成则是完全采用端到端的训练方式,使用神经网络完成文本和答案到问题的转换,是自然语言处理中一个新兴而又重要的研究方向。问题生成在学术界和工业界有着广泛应用,也引起了许多研究人员的兴趣。本文首先对该任务使用的模型框架进行了选择,其次对该模型下存在的问题进行改善,最后将该模型应用到更复杂的场景。本文主要研究内容如下:(1)基于多组件Transformer的问题生成研究。为了将Transformer应用在问题生成任务中,本文提出了三种组件。首先,本文提出答案信息组件,使用答案位置编码的方式对答案信息进行建模,使得模型能够使用到答案信息。其次,本文提出拷贝机制组件,在编码器和解码器交互时加入拷贝机制,使得模型能够从输入文档中复制单词。最后,本文提出ELMo词向量组件,这种动态词向量能解决一词多义问题,使得模型能够对于输入文本建模更加复杂的上下文信息。(2)基于多机制的问题生成相关性研究。为了解决问题生成模型中通用性表达的问题,本文提出了两种机制。首先,本文提出部分拷贝机制,以增强现有的拷贝机制,这使得模型在生成问题时,不仅能够复制原词,还可以复制原词的一部分以生成一个新的单词。这种细粒度的部分拷贝机制通过共享不同形式的单词,来增强生成问题的相关性。其次,本文提出基于QA模型的重排序机制,根据QA模型得到的分数来对模型生成的问题进行重排序。通常而言,通用性问题在QA模型中会得到较低的分数,因此该机制能够筛选出非通用型且高度相关的问题。(3)面向生成式答案的问题生成研究。为了将问题生成模型扩展到生成式答案的情况,本文提出了三种策略。首先,本文提出答案匹配策略,使用硬答案匹配方法和软答案匹配方法,来捕获生成式答案和输入文档之间的语义匹配。其次,本文提出注意力融合策略,在编码器层引入了文档到答案的注意力机制,来对输入文档和生成式答案之间的交互进行建模,该机制能够学习到包含答案信息的文档表示。最后,本文提出答案引导生成策略,将输入文档和生成式答案作为两个独立编码来生成对应问题,这样可以直接将生成式答案引入到解码器中。综上所述,本文从神经问题生成的根基、改善、扩展三个角度出发对该任务进行了研究,其主要贡献如下:首先,在Transformer模型中加入三种组件,使得改进后的Transformer模型更加适应问题生成任务。其次,在问题生成模型中加入两种机制,使得生成的问题与输入文档和目标答案更具有相关性。最后,在问题生成模型中加入三种策略,使得改进后的模型能够处理生成式答案。
其他文献
跨境电子商务依托互联网技术的发展成为当前增长最快的零售渠道之一,与此同时,出口产品信息的翻译需求日益突显,面向电商领域的机器翻译研究愈发重要。但是电商领域机器翻译系统构建过程中存在两个主要的问题:电商领域公开可利用的数据集稀缺和不同地区不同语言背景的电子商务平台的产品信息描述文化风格差异较大。针对这些问题,本文首先从不同电子商务平台获取了不同语言的产品信息数据,然后基于获取的电商领域单语数据,分别
近年来,机器阅读理解(Machine Reading Comprehension,MRC)社区取得了显著进展,但大多数工作是围绕英文阅读理解开展的。而英语以外的其他语言(如汉语、韩语、法语等)阅读理解,由于缺乏大规模的训练数据,还没有得到很好的解决。另一方面,一些阅读理解由于数据构建方法复杂且需要多种复杂阅读理解技能(如指代消解、跨句推理等)处理,导致训练集数据稀缺,机器和人类性能之间也存在巨大差
知识图谱是一种新颖的语义网络,随着越来越多的知识图谱被不同的个人和机构发布,它们之间的异构性问题日渐显露。因此,如何将多源知识图谱融合,促进知识网络的纵深发展,已经成为了当下一个热点研究方向。实体对齐便是解决这个难题的主要方法,它旨在找到不同知识图谱中指向相同现实世界对象的实体。现有的实体对齐方法主要受到知识图谱嵌入模型的推动,将图谱中的实体和关系编码映射到向量空间中,通过计算向量间的距离得到实体
在电子商务日益增长的环境下,跨语言翻译的需求也随之大幅度增加。人工翻译高成本、低效率的问题逐渐显现,阻碍了经济的发展。机器翻译其高效、低成本的特性能够很好的解决该问题,加快推进全球化经济的发展。但目前高质量的机器翻译系统,其训练过程依赖于大规模的平行语料,这些数据往往存在于新闻、医疗领域以及特定语种中,对于大多数语言对而言,平行资源是稀缺的。电子商务领域公开数据资源更是十分匮乏,并且难以构建平行语
近年来,随着位置信息社交网络飞速发展,信息过载问题也越来越严重。为了缓解信息过载所带来的的影响,位置服务推荐显得极为重要。现有的位置服务推荐方法主要通过深度神经网络来捕捉用户的偏好从而对其进行位置服务推荐,因此需要依赖大量的数据来训练模型,但与传统推荐相比,位置服务推荐存在着更为严重的数据稀疏和冷启动问题,这就制约了现有方法在真实场景下的性能。在不同的数据域中用户有着各种丰富的历史交互信息,这就为
在美术史上,印象派被认为是打开了现代绘画形式语言的大门,对绘画发展过程中具有里程碑的意义。印象派的艺术家们摒弃了传统绘画中对于形式和结构的强调,转而注重对于光和色彩的表现和探索。他们试图捕捉并再现自然中瞬间的变化和氛围,以强调视觉的体验和感受为核心,带来了全新的绘画语言和技法,更为绘画中的色彩和观念注入了全新的生命力。印象派的发展与莫奈密切相连,挣脱明暗对绘画的束缚,以光色反应自然,再现自然到以光
随着我国高等教育事业的不断发展和教学水平的不断提高,对大学生生活满意度的关注与研究日益增多,如何提升大学生的生活满意度已经成为各个高校不可忽视的重要议题。已有研究表明,社会支持是影响大学生生活满意度的重要影响因素之一。因此,本研究旨在了解大学生生活满意度现状,探究社会支持与生活满意度之间的关系,在前人的研究基础之上,引入学业自我效能感和心理韧性两个变量,探究二者在大学生社会支持与生活满意度之间的作
<正>数学来源于生活,又广泛应用于生活。细心的同学都会发现,在生活中到处都有数学知识。在我们身边,各种各样的图形十分常见,人们根据图形的特征,将图形应用在不同的物品上。我们知道,平行四边形的主要特点是形状不稳定,受力容易变形,因此它常常用来做容易发生形变的东西。
在当前的市场经济背景下,担保是企业之间进行融资的正常途径之一,担保一方面能够促进企业的资金融通,另一方面还能够保障债权的实现。近年来,担保贷款逐渐成为银行发放贷款的主要形式之一,担保借款逐渐成为了上市公司间接融资的主要途径。然而,过去几年,我国上市公司在担保中却问题频发,对一些企业和金融机构都造成了严重的后果,引起了社会的广泛关注。关联担保具有一定的特殊性和敏感性,合理地进行关联担保能够帮助关联担