论文部分内容阅读
相比于传统的搜索引擎,问答系统能够更全面的分析用户问题、更精确的定位用户所查询的文档以及答案,因此问答系统也成了目前自然语言处理领域中的研究热点之一,并且也是尚未完美解决的问题之一,而其核心问题就是如何定位文档以及答案。答案的定位会根据不同的文档形式有着不同的技术方案和研究方向,而处在大数据时代的今天,以前的结构化、半结构化文档已无法涵盖问答的各种方面,因此,针对自然语言形式文档的答案定位技术应运而生,本文的研究重点就是如何在自然语言形式的文档之中进行答案句的抽取。本文主要研究了三类答案抽取技术:基于语义匹配的候选答案句抽取方法、基于支持向量机的候选答案句抽取方法和基于深度学习的候选答案句抽取方法。此外,我们还提出了使用多种方法进行融合的方法。基于语义匹配的答案句抽取研究已提出多年,而本文除了使用词共现的方法来计算答案与问句的相似程度,还使用了基于词相似度的句子相似度衡量方法,而中文词语相似度的衡量又分为基于词向量的相似度衡量方法和基于知网词典的相似度衡量方法。基于人工提取特征的机器学习方法需要人为分析问句与答案句之间的关系,寻找有用的特征,例如词共现比例、句子长度差异、关键词是否一致等等,然后利用支持向量机来训练一个分类器,来给出问句与每个答案句之间的分值,用于最后的答案选择。实验结果表明,特征的抽取对于最终答案抽取的效果有着至关重要的影响。深度学习方法能够自动学习特征,这避免了特征工程带来的巨大工作量。在本文中,我们使用了多种深度学习网络结构进行了实验,实验结果表明,带attention的GRU模型能够更好的学习到句子的表示,从而得到最优的实验结果。最后,我们将多方法进行融合,组合了之前的实验内容,对多种模型进行融合处理,使其发挥各自的功能,简单模型处理简单问题、复杂模型处理复杂模型,以达到最优的实验效果。