基于知识的自动问答与问题生成的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:julykoko
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统泛指对于由人类的自然语言描述的问题,依据已有的资源对其进行理解并给出答案的智能体。自动问答系统被广泛应用于现实场景中,如搜索引擎、聊天机器人、私人语音助手、客服机器人等。传统的自动问答系统存在若干问题:首先,其忽略了基于已有的知识对自然语言问题本身的语义进行理解;其次,对于某些特定的领域,例如医疗、购物等,很难获取大规模的有效数据来构建相应的问答系统。针对以上问题,本文首先在第2、3章中提出了三种基于结构化知识图谱与半结构化表格的自动问答系统。这些系统通过对问题进行深度语义理解可以回答复杂问题。近年来,问题生成作为自动问答的对偶问题受到广泛关注。本文在第4、5章中提出了两种基于知识图谱、表格、无结构化文本的问题生成系统。问题生成系统一方面可以为自动问答系统提供必要或额外的数据,另一方面可以与问答系统有机地结合在一起而互相促进。本文第2章研究基于知识图谱的自动问答。知识图谱作为一种经过精细架构设计与大量人工编撰而得到的高精度的结构化数据,成为问答系统的重要背景知识。由于已有的研究知识图谱问答系统的数据集主要包含单关系的简单问题,而对包含多关系及特殊操作的复杂问题涉及较少,致使大多数已有工作未能针对需要理解与推理的复杂问题投入过多的研究。针对此问题,本文提出两种针对复杂问题的知识图谱问答方法。首先,本文提出一种基于翻译的知识图谱问答方法,该方法将语义解析与答案获取统一在一个框架中。该方法基于表式剖析(Chart Parsing)算法,在自底向上的解码过程中先解复杂问题中的子问题,再递归地解外层问题直至最终问题。这种方式能够很好地解决逻辑形式为链状的多跳类型的复杂问题,然而对于逻辑形式为星状的多约束类型的复杂问题的解决能力有限。因此本文提出第二种方法:基于多约束查询图的知识图谱问答。本文系统性地定义了一种适合知识图谱问答的逻辑表达式:多约束查询图,并提出了一种通过对多约束问题进行多约束检测而产生多约束查询图的方法。实验结果表明这两种方法分别提高了问答系统对复杂问题的理解与回答能力。本文第3章研究基于表格的自动问答。知识图谱的构建耗费大量人力成本,且对真实世界中的知识覆盖度相对有限。半结构化的表格作为一种比知识图谱更轻量级、更易获取、对特定领域知识覆盖更全面的一种知识,对自动问答领域来说是极其宝贵的资源。因此,基于表格的问答系统受到越来越多的重视。已有的基于表格的问答研究或通过信息检索的方法解决简单问题,或通过语义解析的方式处理复杂问题。本文提出一种基于信息检索的表格问答方法来解复杂问题,该方法不但提高了对复杂问题的解决能力,也改善了进行语义解析所带来的搜索空间过大的低效能问题。具体而言,本文设计了涵盖常见语言现象与表格结构信息的四大类特征。每个复杂问题与答案候选对被表示成一个低维的特征向量,通过学习到的排序模型可以对答案进行排序与选取。实验结果证明了本文提出的基于信息检索的表格问答方法的有效性。本文第4章研究基于知识图谱与表格的陈述性文本及问题生成。训练基于知识图谱与表格的问答系统往往需要大量的训练数据。然而获取大规模的标注数据往往需要大量的人力成本。作为自动问答的对偶问题,问题生成系统可以基于已有知识自动生成问题来缓解上述问题。本文提出了一种表格到序列(Table2Seq)的神经网络模型来基于知识图谱与表格进行文本与问题生成。由于知识图谱三元组可以转换成两行两列的表格,下文中知识图谱也被称为表格。该模型通过充分考虑了表格结构信息的编码器对表格进行编码,然后利用解码器基于表格的编码进行文本或问题的生成。为了解决传统解码器难以输出稀有词的问题,本文引入了注意力机制与拷贝机制,使得模型可以输出低频的表格单元。此外,为了使模型可以对具有不同属性的表格生成具有不同模式的文本或问题,解码器引入了可以区分不同表格的全局信息与局部信息。四个数据集上的实验结果充分证明了Table2Seq模型的有效性。本文第5章研究基于文本的问题生成。相对于结构化的知识图谱与半结构化的表格,无结构化的文本是更加容易获取、覆盖知识面更广的资源。近年来,为了帮助提升基于无结构化文本的问答系统,如机器阅读理解等,基于无结构化文本的问题生成受到极大关注。针对特定领域无标注数据这一问题,本文提出一种双重对抗网络(DoubAN)来进行文本到问题的生成,该模型可以基于源领域的标注数据与目标领域的无标记数据来进行训练与学习。DoubAN模型包含一个问题生成器(QG),一个领域分类器(DC-Dis),以及一个问答判别器(QA-Dis)。DoubAN通过QG与DC-Dis、QA-Dis的双重对抗过程中,充分利用模型生成的语料,并学习不同领域的通用文本表征来实现目标领域文本到问题的生成。本文在SQuAD与NewsQA上进行了实验与分析,结果表明了DoubAN能够在没有标记数据的目标领域上有效地生成问题。
其他文献
中药中的一些名贵稀少药材,或因药源短缺、或因价格昂贵,远不能满足医药之需。近年来,广泛进行了寻找中药代用品的实验和临床研究,取得了不少好的成绩。但也存在一些问题,影
针对并联机构的构型综合问题,一直是机构学研究的难点和热点。基于螺旋理论构造了一种新型四自由度解耦并联机构,该机构能够实现空间的三维转动和一维移动,具有完全解耦和完
随着我国轨道交通和其他桥梁建设项目的蓬勃发展,全国各地不断的出现跨河道、跨道路连续梁钢管拱桥,根据不同的施工环境,采用施工工艺简单、支架体系安全、总体费用相对较小
本文对广东省环保产业的发展现状、优势和存在的问题进行了分析,提出了加快广东省环保产业发展的建议.
马克思恩格斯的城市理论是马克思主义思想体系中重要的理论界域。该理论不是自然而然生成的,有其自身的历史境遇及思想基础。英国古典政治经济学的城市理论、黑格尔的市民社
中华武术作为中华传统文化中的瑰宝之一,对文化自信的培育起着十分重要的作用。弘扬尚武精神,发展中华武术,是建立文化自信、促进民族伟大复兴的内在需要。本文运用文献资料法、专家访谈法、社会动力学模型法以及问卷调查法以尚武精神的动因及方法为研究对象,对中华武术发展历程及发展现状进行梳理,分析中华武术发展中存在的问题,对中华武术尚武精神的构成、形成、演变及当代表现进行分析,根据社会动力学理论分析尚武精神弘扬
<正>固态锂离子电池由于其在能量密度、安全性方面的显著优势,近年来受到研究者的广泛关注。锂离子固态电解质作为固态电池的核心,很大程度上决定了固态电池的循环稳定性和倍
会议
矿石的渗透性能是决定此矿石能否采用堆浸工艺回收有价金属的关键因素.对于易泥化、渗透性低的铀矿石而言,主要的问题是如何提高矿石的渗透性能.用SAU-1高分子聚合物型表面活
硼砂珠实验是硼的元素及其化合物实验中的一个很重要的实验,但此实验用传统的镍丝载体不容易做成功,且不同教材对不同金属的硼砂珠颜色的描述不一致。对硼砂珠实验从载体的选
城市居住空间是城市社会生态、政治和经济过程的复合空间表达,存在着三种典型的理论分析。芝加哥学派从需求导向入手,从人类的生物聚集行为和消费者个体理性出发,探讨了城市