论文部分内容阅读
在大数据牵引的信息时代,随着军事信息获取和分析手段的多样化和精细化,虽然为作战人员带来了磅礴的信息资源,但也造成了严重的信息负担。如何快速准确的从海量信息中抽取出有用的知识,是提升军事信息系统服务的基础。而自动文本分类,通过对文本信息的学习,将文本划分为事先确定的某一类或某几类的过程,从而节省了用户的大量阅读时间,实现信息的有效获取。本文旨在研究自然语言处理领域中的文本表示,通过深度学习的方法,实现计算机对文本信息的快速准确的归纳和整理。研究文本表示并应用于自动文本分类,能够满足用户的信息需求,提高信息系统的精准服务水平。本文重点研究自动文本分类问题,主要完成了以下几个方面的工作:(1)提出了在分层架构下的神经网络分类模型本文基于文本的分层架构,将文本的分层架构作为文本的先验知识,建立了分层神经网络分类模型的总体框架。通过比较有无分层架构模型间的算法复杂度差异,发现分层架构的添加不会引起模型算法复杂度的增加,反而在某些特定的网络结构,会大幅降低复杂度。而且在公开数据集上,分层架构下的神经网络分类模型能够明显提升文本分类性能。特别地,随着文本长度的增加,性能改善的幅度更加明显。(2)提出了基于自交互注意力机制的文本分类模型本文发现在文本表示中标准的注意力机制需要借助外部的先验知识作为背景,不能普遍适用于此。因此,本文将标准的注意力机制改进为自交互注意力机制(TextSAM)。并根据不同的交互信息聚合策略,相应提出了TextSAMAVE,TextSAMMAX和TextSAMATT模型。它通过枚举,将文本中各个成分都作为注意力机制中的背景知识,不仅深化了文本中各成分间的相互作用,而且减少了需要外部知识的麻烦。通过在公开数据集上的分析,发现含自交互注意力机制的文本分类模型可以明显提升文本分类的精度,并且对于短文本有更加显著的改善幅度。(3)提出了基于句子各成分交互表示的句子分类模型本文建立在前文提出的交互概念基础上,将句子的语法生成树与词交互表示相结合。根据模型构建的不同角度,提出了两种不同层次的交互表示词嵌套,也就是,一种局部交互表示(LIR)和一种全局交互表示(GIR)。并结合这两种表示产生了一种混合交互表示,即HIR。通过在公开数据集上的分析,发现含有文本交互表示的文本分类模型的分类性能优于当前先进的文本分类模型。特别地,通过句子长度的分析,发现短文本更加受益于文本的交互表示。