基于知识库的弱监督开放领域问答系统研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:sider
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年大量的信息在互联网中产生。准确快速的获取所需信息显得很重要。常规的信息检索已经很难满足人们生活的需求。相比信息检索系统,问答系统可以准确快速的给人们提供信息。然而使用强监督的方式训练问答系统需要大量的人功能标注语料,人工标注语料的代价很大。在这个背景下,本文提出了一种基于知识库使用弱监督方法训练问答系统方法。它使用Seq2Seq问题生成模型来生成问答语料,然后使用生成的语料和少量人工标注语料一起训练问答模型。本文的主要工作包括以下两点内容:(1)本课题提出使用Seq2Seq模型生成问答语料。现有的许多研究方法都是通过模板和规则的方式生成问答语料,生成的问题形式单一,缺乏人的自然语言的多样性。而Seq2Seq模型将知识库中的三元组转换为问题,充分利用知识库的知识信息,生成的问题在评价指标上比基于模板和规则的方法取得好的效果。(2)本课题提出使用联合方式训练问题生成模型和问答模型。相比先生成语料,再训练模型的方法,本文提出了联合训练语问题生成模型和问答模型的方法。模型生成的语料和人工标注的语料的分布存在一定的偏差,分别训练语料生成模型和问答模型容易使得问答模型产生偏差,得到次优的模型。通过联合训练的方式,可以加强两个模型之间的相互约束,使得模型的性能提高。在SimpleQuestions数据集上通过实验验证了联合训练方式的有效性。
其他文献
以海拔梯度作为一维资源轴,以物种重要值作为生态位计测的状态指标,对卧龙自然保护区川滇高山栎灌丛主要木本植物的生态位特征进行研究。结果表明:川滇高山栎灌丛在整个资源
目的 :探讨对胎儿的颜面部进行产前超声检查的临床效果。方法 :对2013年5月~2015年5月期间在我院进行产前超声检查的86例胎儿的临床资料进行回顾性研究。我院对胎儿颜面部的
目的:探究进行低剂量螺旋CT检查在诊断早期肺癌方面的临床价值。方法:对2014年6月至2014年12月我院收治的72例早期肺癌患者的临床资料进行回顾性分析,将其随机分为对照组和观
本文对仙游县矿山资源开采和生态环境问题进行探讨,提出合理开采矿山和有效保护生态环境的建议和措施,为矿山开采者及决策管理部门提供参考。
在经过多年的水土保持生态环境建设,抚河流域的水土流失面积由1997年治理前的4920.73km^2减少至目前的4602.79km^2,在生态环境得到了有效改善的基础上,从水土保持生态环境建设的角
按照水土保持法规的要求,开发建设项目必须开展水土保持监测工作,而且今后水土保持的工作重点逐步向监测转移。本文以北盘江光照水电站工程水土保持监测为例,初探贵州省开发建设
文章从新邵县2005年“5.31”特大山洪灾害着手,分析了“5.31”特大山洪灾害的成因,指出降水强度、强降水持续时间、降水时间间隔是形成“5.31”特大山洪灾害最主要、最直接的原因