论文部分内容阅读
深度学习技术在自然语言处理方向的研究越来越深入,文本分类作为自然语言处理的基础任务之一,已广泛地应用于情感分析、新闻分类等领域。文本表示和特征提取是影响文本分类性能的两个重要因素,决定着文本分类效果的上限。现在的文本表示一般是基于外部大型语料库训练获得的,难以解决未登录词(Out of Vocabulary,OOV)问题,并且特征提取部分一般选择基于卷积神经网络(CNN)或循环神经网络(RNN)的模型,进行文本特征的自动提取,其模型结构在训练过程中可能会损失部分文本信息。因此,得到包含更多语义信息的文本表示,构造能充分提取文本特征的模型成为了目前了文本分类研究的难点和热点。本文针对上述两个问题,进行的研究工作如下:首先,针对word2vec模型,提出了一种改进的词向量初始化方法CP_word2vec,该方法可以有效地解决训练集中未登录词的问题。防止因随机初始化向量过多而导致词向量空间被破坏,弱化了因分词错误、拼写错误等外部干扰等问题对词向量质量的影响,为后续特征提取阶段提供更丰富的语义信息。其次,本文基于Transformer模型结构提出一种层次化的神经网络模型HTN。Transformer通过自注意力机制,能够考虑文档中每个词之间的关系,相对CNN,RNN有更好的特征提取能力,本文充分考虑文档结构具有的层次性,分别在句子层面和文档层面进行建模,使模型能够从词语层面到句子层面,再到文档层面全面提取文本信息。之后,结合CP_word2vec方法和HTN模型,本文提出一个新的模型CPW_HTN,集合两个方法的优点,更进一步提高文本分类的效果。最后,本文首先通过两个情感分析数据集来对CP_word2vec方法进行实验分析,结果表明相同条件下,CP_word2vec相较于word2vec文本表示模型在两个数据集上的准确率均有一定的提升。然后通过两个新闻数据集对CPW_HTN模型进行实验分析,并选择7个深度学习模型作为对比,结果表明,与其他深度学习模型相比,本文提出的CPW_HTN模型在分类准确率上都取得了最佳效果。综上所述,本文通过对初始化词向量的改进以及构建一个层次化的深度学习模型,充分地保留和提取文本的有效信息,进一步提升文本分类的精度。