论文部分内容阅读
最近几年大量的信息在互联网中产生。准确快速的获取所需信息显得很重要。常规的信息检索已经很难满足人们生活的需求。相比信息检索系统,问答系统可以准确快速的给人们提供信息。然而使用强监督的方式训练问答系统需要大量的人功能标注语料,人工标注语料的代价很大。在这个背景下,本文提出了一种基于知识库使用弱监督方法训练问答系统方法。它使用Seq2Seq问题生成模型来生成问答语料,然后使用生成的语料和少量人工标注语料一起训练问答模型。本文的主要工作包括以下两点内容:(1)本课题提出使用Seq2Seq模型生成问答语料。现有的许多研究方法都是通过模板和规则的方式生成问答语料,生成的问题形式单一,缺乏人的自然语言的多样性。而Seq2Seq模型将知识库中的三元组转换为问题,充分利用知识库的知识信息,生成的问题在评价指标上比基于模板和规则的方法取得好的效果。(2)本课题提出使用联合方式训练问题生成模型和问答模型。相比先生成语料,再训练模型的方法,本文提出了联合训练语问题生成模型和问答模型的方法。模型生成的语料和人工标注的语料的分布存在一定的偏差,分别训练语料生成模型和问答模型容易使得问答模型产生偏差,得到次优的模型。通过联合训练的方式,可以加强两个模型之间的相互约束,使得模型的性能提高。在SimpleQuestions数据集上通过实验验证了联合训练方式的有效性。