论文部分内容阅读
深度学习强大的特征学习能力在自然语言处理领域获得有效应用和突破。如何获得有效的文本特征表示,是判断深度文本特征表示算法好坏的关键之一。有效的文本特征表示,能够提升文本分类和识别的性能。文本分类和命名实体识别是自然语言处理领域的两项基础任务,也是自然语言处理领域的研究热点。本文基于这两种任务,提出相应的深度学习方法,提取有效的深度文本特征表示,从而提升文本分类和命名实体识别的性能。本文的工作主要包括以下两个方面:1)本文提出基于全局-局部互注意力机制(Global-Local Mutual Attention,GLMA)的文本分类模型。该模型同时建模了文本序列的全局和局部特征表示,并提出全局-局部互注意力机制来建模两者之间的对齐关系和相互作用,提取到更加有效的全局和局部特征。全局-局部互注意力机制包含局部引导的全局注意力和全局引导的局部注意力。一方面,局部引导的全局注意力为文本序列不同位置中语义相关的全局特征分配不同的注意力权重,从而捕获文本序列的组合语义。另一方面,全局引导的局部注意力能够自动地为文本分类任务相关的局部特征分配更多的注意力权重,捕获文本序列的关键局部语义特征。此外,该模型中的沿时间加权池化,能够有效地提取具有判别性的全局和局部特征表示。在23个文本分类数据集上的实验结果证明了该模型能够提取到更加有效的全局和局部特征表示,提升文本分类的准确率。2)本文提出基于多层次主题感知(Multiple-Level Topic-Aware,MLTA)的命名实体识别模型。该模型利用双向循环神经网络提取文本的序列特征表示,通过引入神经主题模型,建立多层次的主题表示:单词级别的主题特征表示和文档级别的主题特征表示。前者,学习了单词和隐含主题的相关性,能够捕获单词在不同语境下的不同语义。后者,能够捕获文档级别的全局信息,对单词所代表的真实含义具有更深的理解。在3个命名实体识别数据集上的实验结果表明了该模型的有效性。此外,通过定量和定性实验分析、可视化分析,也验证了多层次主题表示在识别有歧义和未登录词的命名实体的有效性。