面向大规模知识库的开放域问题生成技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liongliong512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于知识库的问题生成任务旨在于生成可以由一个三元组回答的简单问题,与基于知识库的问答系统的任务目标相反。基于知识库的问答系统的输入为自然语言形式的疑问句,根据知识库中大量三元组推断出问题的答案。使用知识库来回答问题需要大量标签问答对,然而制作一个大规模、精确的标准数据集非常昂贵,还会受领域等因素的限制。为了减少标注工作量,问题生成被提出,并受到了工业界和学术界越来越多的关注。然而,基于知识库的问题生成也存在许多挑战,比如三元组中存在大量低频词导致OOV(Out of Vocabulary)问题,而且模型的输入仅为一个缺乏背景信息的三元组,生成的问题缺乏多样性。因此,本文将探讨基于大规模知识库的开放域问题生成算法,从包含答案的三元组入手,反向生成适当的、信息量丰富的问题句。本文的主要工作如下:为了解决因大量低频词造成的OOV问题,本文在生成框架上融入Copy机制。由于Copy机制内部计算存在一些缺陷,导致一般常用词汇的预测受到弱化,故本文对Copy机制进行了改善,构建出一个基于Attention-Copy机制的问题生成模型(AC-KBQG),在解决OOV问题时加强整体词汇生成效果。在多次实验结果中发现生成的问题存在提问意图模糊的情况,为了清晰化提问意图,本文提出问题类型加强特征表示,使生成的问题中具有更准确的疑问词。本文在中英文数据集SimpleQuestions和NLPCC-KBQG 2018上进行了实验。自动评测和人工评估的实验结果表明,AC-KBQG的各项指标比其他对比模型均有一定程度上提高。AC-KBQG模型解决OOV问题时加强一般词汇的生成质量,同时还清晰化了提问意图,但生成的问题缺乏实体背景信息导致其大部分较为简洁,缺乏多样性。为了提高生成问题的多样性,本文提出了基于Graph Transformer网络的问题生成模型(GTN-KBQG)。该模型着重于加强对三元组的多粒度语义特征表示,采用双编码层:基于Graph Transformer的图编码层和基于BERT加强的词级编码层。本文预先将知识库中实体、关系构成知识图,赋予实体全局化的向量,并针对此问题生成任务,结合Transformer结构的并行性对输入节点进行特征细化。同时,为了充分利用词语粒度的语义向量,三元组的词语序列先通过BERT预训练模型获取向量表征,再使用双向门控循环单元网络计算上下文向量。最后,本文将两个编码层联合获得更完善的三元组特征表示,再输入解码层预测问题。本文在英文数据集SimpleQuestions上进行了实验,实验的评测结果表明了该方法的有效性。
其他文献
在自然界中,成群结队飞行的鸟群,鱼群以及觅食的蚁群经常会表现出协调一致的行为.对多智能体系统协调行为的研究在工程及经济领域都有着非常广泛的应用.多智能体系统的协调控
如今,数字图像信息在互联网上被广泛传播,容易遭受大量的恶意攻击。因此,图像信息的安全问题变得尤为重要,这推动了图像加密技术的快速发展。本文设计了两种基于混沌系统与DN
三维点云数据处理技术在光探测和测距(Li DAR)、深度学习、计算机视觉、体感游戏、无人驾驶、逆向工程等领域有着非常重要的研究意义。在获取三维点云数据的过程中不可避免的
蜡样芽胞杆菌CZ(Bacillus cereus CZ)是本实验室自筛野生菌,可以产生高活性的胞外L-亮氨酸氨肽酶。在实验室之前的发酵优化中发现碳源对该氨肽酶的产生具有明显的影响,其他因素
随着全球化进程的加速,英语课程与教学的重要性也越来越突出。2017年出版的《普通高中英语课程标准》中提到的“英语学科核心素养”成为教育工作者和研究者研究的重点。英语
数字化产品的飞速发展极大地刺激了人们对于私人内容的安全性需求。数字水印技术是一种保护数字产品版权的重要手段,通过将私人信息嵌入到图像、音频和视频这些数字载体中来
视频图像超分辨率重构算法是提高图像传感器分辨率的重要手段。随着硬件成本以及需求环境的增加,传统的超分辨率重构算法存在重构质量较低以及适用范围有限的缺点。与单帧图
作为室内空气典型污染物之一的甲醛,对人体健康危害极大,且潜伏周期长,因此研究高效、长久去除室内甲醛的技术具有重大意义。TiO2光催化法可有效去除甲醛,反应彻底、无二次污
静止同步补偿器(Static Synchronous Compensator,STATCOM)作为当前先进的无功补偿装置,能快速补偿电网中的无功功率,有效降低电能传输损耗,降低电力设备容量,改善电网质量,
移动自组织网络由大量传递信息且无中心设备控制的节点组成.节点在传输信息过程中,要求时延较短,这就需要服务质量保证,并且节点所需能量大部分由电池提供,因此在进行自组织