论文部分内容阅读
文本分类是自然语言处理领域中最常见的任务之一,传统的文本表示方法以词袋法为基础,较难表述复杂的语义。近年来,随着深度学习技术的发展,由于其捕捉各类文本特征的能力很强,受到了研究人员的广泛关注。特别是LSTM模型的提出,在一些文本分类任务上取得了良好的效果。但是,本文认为这些方案还存在一些不足之处,没有充分挖掘深度学习技术在文本分类任务中的潜力。一方面是当前的深度学习模型捕捉文本特征时角度单一化,不能融合多角度特征;另一方面,研究人员很难找到一个对众多文本分类任务均适用的模型,需要针对任务设计模型处理。为了解决这些问题,本文以LSTM模型为切入点,针对各类文本数据及分类任务,提出了一个基于模型融合方法的文本分类框架,主要包括以下几点研究工作:(1)针对文本基本单元通常采用词向量,不能完全包含语义信息的问题,本文引入字向量及词向量综合处理机制,从两种角度捕捉文本的基本单元信息。(2)为了解决多角度提取文本特征的问题,本文采用不同模型从句法结构、顺序、逆序等角度挖掘语义,并通过模型融合方法整合到一个框架中去。特别针对句子级别文本原文信息不足的情况下,多角度语义特征对分类任务很有帮助。(3)面对多角度特征维度太高,分类器难以处理的问题,本文在特征处理部分提出了用MLP层融合多维度特征的方案,该方案可用于大部分特征融合任务。本文主要提出一种基于深度学习技术的文本分类框架,在许多实验中取得了较好的成果,同时也论证了一些前沿的深度学习技术在文本分类任务上的效果。能够为一些文本分类任务提供解决方案,具有理论和应用的双重价值。