论文部分内容阅读
基于知识库的问题生成任务旨在于生成可以由一个三元组回答的简单问题,与基于知识库的问答系统的任务目标相反。基于知识库的问答系统的输入为自然语言形式的疑问句,根据知识库中大量三元组推断出问题的答案。使用知识库来回答问题需要大量标签问答对,然而制作一个大规模、精确的标准数据集非常昂贵,还会受领域等因素的限制。为了减少标注工作量,问题生成被提出,并受到了工业界和学术界越来越多的关注。然而,基于知识库的问题生成也存在许多挑战,比如三元组中存在大量低频词导致OOV(Out of Vocabulary)问题,而且模型的输入仅为一个缺乏背景信息的三元组,生成的问题缺乏多样性。因此,本文将探讨基于大规模知识库的开放域问题生成算法,从包含答案的三元组入手,反向生成适当的、信息量丰富的问题句。本文的主要工作如下:为了解决因大量低频词造成的OOV问题,本文在生成框架上融入Copy机制。由于Copy机制内部计算存在一些缺陷,导致一般常用词汇的预测受到弱化,故本文对Copy机制进行了改善,构建出一个基于Attention-Copy机制的问题生成模型(AC-KBQG),在解决OOV问题时加强整体词汇生成效果。在多次实验结果中发现生成的问题存在提问意图模糊的情况,为了清晰化提问意图,本文提出问题类型加强特征表示,使生成的问题中具有更准确的疑问词。本文在中英文数据集SimpleQuestions和NLPCC-KBQG 2018上进行了实验。自动评测和人工评估的实验结果表明,AC-KBQG的各项指标比其他对比模型均有一定程度上提高。AC-KBQG模型解决OOV问题时加强一般词汇的生成质量,同时还清晰化了提问意图,但生成的问题缺乏实体背景信息导致其大部分较为简洁,缺乏多样性。为了提高生成问题的多样性,本文提出了基于Graph Transformer网络的问题生成模型(GTN-KBQG)。该模型着重于加强对三元组的多粒度语义特征表示,采用双编码层:基于Graph Transformer的图编码层和基于BERT加强的词级编码层。本文预先将知识库中实体、关系构成知识图,赋予实体全局化的向量,并针对此问题生成任务,结合Transformer结构的并行性对输入节点进行特征细化。同时,为了充分利用词语粒度的语义向量,三元组的词语序列先通过BERT预训练模型获取向量表征,再使用双向门控循环单元网络计算上下文向量。最后,本文将两个编码层联合获得更完善的三元组特征表示,再输入解码层预测问题。本文在英文数据集SimpleQuestions上进行了实验,实验的评测结果表明了该方法的有效性。