论文部分内容阅读
自动问答系统泛指对于由人类的自然语言描述的问题,依据已有的资源对其进行理解并给出答案的智能体。自动问答系统被广泛应用于现实场景中,如搜索引擎、聊天机器人、私人语音助手、客服机器人等。传统的自动问答系统存在若干问题:首先,其忽略了基于已有的知识对自然语言问题本身的语义进行理解;其次,对于某些特定的领域,例如医疗、购物等,很难获取大规模的有效数据来构建相应的问答系统。针对以上问题,本文首先在第2、3章中提出了三种基于结构化知识图谱与半结构化表格的自动问答系统。这些系统通过对问题进行深度语义理解可以回答复杂问题。近年来,问题生成作为自动问答的对偶问题受到广泛关注。本文在第4、5章中提出了两种基于知识图谱、表格、无结构化文本的问题生成系统。问题生成系统一方面可以为自动问答系统提供必要或额外的数据,另一方面可以与问答系统有机地结合在一起而互相促进。本文第2章研究基于知识图谱的自动问答。知识图谱作为一种经过精细架构设计与大量人工编撰而得到的高精度的结构化数据,成为问答系统的重要背景知识。由于已有的研究知识图谱问答系统的数据集主要包含单关系的简单问题,而对包含多关系及特殊操作的复杂问题涉及较少,致使大多数已有工作未能针对需要理解与推理的复杂问题投入过多的研究。针对此问题,本文提出两种针对复杂问题的知识图谱问答方法。首先,本文提出一种基于翻译的知识图谱问答方法,该方法将语义解析与答案获取统一在一个框架中。该方法基于表式剖析(Chart Parsing)算法,在自底向上的解码过程中先解复杂问题中的子问题,再递归地解外层问题直至最终问题。这种方式能够很好地解决逻辑形式为链状的多跳类型的复杂问题,然而对于逻辑形式为星状的多约束类型的复杂问题的解决能力有限。因此本文提出第二种方法:基于多约束查询图的知识图谱问答。本文系统性地定义了一种适合知识图谱问答的逻辑表达式:多约束查询图,并提出了一种通过对多约束问题进行多约束检测而产生多约束查询图的方法。实验结果表明这两种方法分别提高了问答系统对复杂问题的理解与回答能力。本文第3章研究基于表格的自动问答。知识图谱的构建耗费大量人力成本,且对真实世界中的知识覆盖度相对有限。半结构化的表格作为一种比知识图谱更轻量级、更易获取、对特定领域知识覆盖更全面的一种知识,对自动问答领域来说是极其宝贵的资源。因此,基于表格的问答系统受到越来越多的重视。已有的基于表格的问答研究或通过信息检索的方法解决简单问题,或通过语义解析的方式处理复杂问题。本文提出一种基于信息检索的表格问答方法来解复杂问题,该方法不但提高了对复杂问题的解决能力,也改善了进行语义解析所带来的搜索空间过大的低效能问题。具体而言,本文设计了涵盖常见语言现象与表格结构信息的四大类特征。每个复杂问题与答案候选对被表示成一个低维的特征向量,通过学习到的排序模型可以对答案进行排序与选取。实验结果证明了本文提出的基于信息检索的表格问答方法的有效性。本文第4章研究基于知识图谱与表格的陈述性文本及问题生成。训练基于知识图谱与表格的问答系统往往需要大量的训练数据。然而获取大规模的标注数据往往需要大量的人力成本。作为自动问答的对偶问题,问题生成系统可以基于已有知识自动生成问题来缓解上述问题。本文提出了一种表格到序列(Table2Seq)的神经网络模型来基于知识图谱与表格进行文本与问题生成。由于知识图谱三元组可以转换成两行两列的表格,下文中知识图谱也被称为表格。该模型通过充分考虑了表格结构信息的编码器对表格进行编码,然后利用解码器基于表格的编码进行文本或问题的生成。为了解决传统解码器难以输出稀有词的问题,本文引入了注意力机制与拷贝机制,使得模型可以输出低频的表格单元。此外,为了使模型可以对具有不同属性的表格生成具有不同模式的文本或问题,解码器引入了可以区分不同表格的全局信息与局部信息。四个数据集上的实验结果充分证明了Table2Seq模型的有效性。本文第5章研究基于文本的问题生成。相对于结构化的知识图谱与半结构化的表格,无结构化的文本是更加容易获取、覆盖知识面更广的资源。近年来,为了帮助提升基于无结构化文本的问答系统,如机器阅读理解等,基于无结构化文本的问题生成受到极大关注。针对特定领域无标注数据这一问题,本文提出一种双重对抗网络(DoubAN)来进行文本到问题的生成,该模型可以基于源领域的标注数据与目标领域的无标记数据来进行训练与学习。DoubAN模型包含一个问题生成器(QG),一个领域分类器(DC-Dis),以及一个问答判别器(QA-Dis)。DoubAN通过QG与DC-Dis、QA-Dis的双重对抗过程中,充分利用模型生成的语料,并学习不同领域的通用文本表征来实现目标领域文本到问题的生成。本文在SQuAD与NewsQA上进行了实验与分析,结果表明了DoubAN能够在没有标记数据的目标领域上有效地生成问题。