论文部分内容阅读
随着深度学习技术和大数据技术的发展,问答系统的研究有了很大进展。问答技术是问答系统成功的关键,它通过更好地理解用户提问的真实意图,给出简洁准确的答案,更有效地满足用户对信息的需求。目前互联网上海量非结构化文档蕴藏着的知识可以很好地帮助问答,关于非结构化文档的问答技术还有很多值得研究的问题。本文综合当前的研究成果,探讨了文本理解技术,提出了基于非结构化文档理解的问答方法和模型,并通过实验进行验证分析,本文的主要工作和研究成果包括:1.探究了问句的理解方法,提出了一种通过训练问句和答案对得到问句表示向量的模型和一种获得其关系表征的关系抽取模型,并通过显式和隐式的表征更好地理解问句。2.对于以非结构化文档中句子作为答案的问答问题,采用远程监督学习构建了一个问答数据集,并提出了一个基于理解表征和信息检索的排序学习问答模型。首先利用显式表征对问句进行扩展,提高召回,再将隐式理解得到的向量表征作为特征加入到排序学习中,实验表明问句理解能有效地提高非结构化文档问答的效果。3.对于以短语片段作为答案的问答问题,将从非结构化文档中抽取片段式的答案转化成确定答案片段的起始位置和结束位置分布的问题,提出了基于深度学习的理解模型,依赖起始位置信息改进了确定结束位置分布的网络结构,在输入词单元的基础上创新性地引入了字符和依存句法信息的理解。实验表明,在SQuAD数据集上,该模型与当前优秀的模型相比有显著的提升。本文将当前自然语言处理领域热门的理解研究与非结构化文档的问答结合起来,对于开放领域问答的研究有实质性的意义。