论文部分内容阅读
自然语言理解为核心技术的自动问答(Question Answering,QA)是评价机器语言认知智能的重要任务,是由机器自动回答用户提出的问题以满足用户知识需求的任务。受益于互联网数据的飞速增长、计算机硬件计算能力的大幅度提升以及以深度学习为背景的自然语言处理技术的成熟,智能问答技术在近年来取得了突飞猛进的发展,同时在生活中具有广泛的应用场景。自然语言表达的丰富多样性给自然语言理解带来极大的挑战。在现实中,用户的问题具有多样性和不同程度的复杂性,准确的理解并回答问题具有很高的难度。本文借助注意力机制(Attention)以及深度学习技术,有效挖掘隐藏在语言表达中的深层语义信息,充分的理解用户查询意图,实现正确回答。本文的研究工作主要包括如下几部分:(1)建立了基于Scaled Dot-Product Attention机制的多模块层次化问答模型。采用字符级的词嵌入有效解决未登录词问题;通过Dot-Product实现注意力分布的捕获,并进一步融合篇章和问题之间的交互信息;基于自匹配的注意力机制解决了远距离依赖问题,为正确预测答案提供了有效的决策信息。(2)设计并构建了基于迁移学习的生物医学自动问答模型,解决限定领域由于标注代价高带来的训练数据缺乏问题。自动问答任务的研究大多在开放领域,数据比较充分,我们采用2种不同的迁移学习技术减少深度学习模型对训练数据的需求,有效训练目标领域(生物医学领域)的问答模型,以较少的训练数据获得更优的性能。(3)研究了基于多种注意力机制的多篇章自动问答技术。由于中文语言表达的丰富性,特别是当答案需要在多个篇章中融合获取时,自动问答具有更高的挑战。我们研究了如何利用多篇章信息以及多个候选答案信息进行增强学习的策略,解决多篇章的数据预处理方案并进行多答案联合训练,有效提升自动问答模型的性能。本文工作采用层次化注意力机制能够捕获上下文和问题之间的交互信息,在公开数据集上取得了优异的性能。在斯坦福问答数据集(SQuAD)上EM值达到了71.1%,F1指标突破了80%,与其他系统相比取得了更优的性能;在生物医学问答数据集(BioASQ)上,采用的迁移学习模型较之于其他参赛队伍,综合性能最优。在多篇章自动问答实验上,采用有效的数据预处理方法使模型性能提升超过10%。