论文部分内容阅读
智能问答系统是一种新型的信息服务系统,它综合运用了信息检索、自然语言处理、人工智能、语义分析等技术,可以对用户问题做出智能准确的响应。以领域划分可以分为特定领域和开放领域问答系统,按处理的问题类型可分为事实型问答和非事实型问答。本文设计并实现了开放域中文智能问答系统,使用不同策略处理不同类型的问题,重点研究针对非事实型问题的模板匹配和深度序列映射模型及针对事实型问题的处理流程。由于面向领域是开放域,设计的模板不可能覆盖到所有的非事实型问题,故本文引入基于深度神经网络的序列映射模型,使用大量问答对语料训练模型,可以学习到问题序列与答案序列之间的映射关系,相当于自主学习“模板”,一定程度上解决了模板覆盖不足的问题。本文所实现的智能问答系统包括针对事实型问题的深度问答流程,如问题类型判断、支持证据收集与检索、支持证据评分、候选答案抽取与评分步骤。本文涉及到的技术包括文本预处理过程、AIML模板匹配、Lucene全文检索、循环神经网络及其变形长短期记忆模型、基于循环神经网络的序列映射模型。本文的主要工作和成果如下:(1)构建基于循环神经网络的序列映射模型对问答对建模,将原始输入从稀疏词袋向量改为稠密词向量,设计实验探究影响实验结果的关键参数,并与全文检索模型相比较。实验结果表明模型生成的答案比基于Lucene检索出的答案合理性高出14%,说明序列映射模型的确可以学习到训练语料中某些隐藏的规则,可以对语料库中未登陆问题产生合理响应,验证了该方法的有效性。(2)分析比较目前存在的支持证据和候选答案评分组件,发现基于平均词距模型的候选答案评分方法能够利用句子的结构信息,基于词频的答案评分方法适用于预期答案在支持证据中多次出现但缺乏统一表述模式的情况。故本文将这两种方法加权结合,综合考虑结构、词频两方面对答案评分组件的影响,实验表明该方法具有更高的准确率和MRR值。(3)综合以上研究成果,设计系统框架,最终实现中文智能问答原型系统。