论文部分内容阅读
文本分类是信息挖掘的关键技术之一,在新闻分类、情感类别分析和舆情监督中都有广泛的应用。传统的基于词袋模型和向量空间模型的文本表示方法存在特征提取能力不足和特征信息损失大的问题,而在面对较复杂的文本结构以及多分类、数据不均衡等问题时,这些基于传统的统计学习和机器学习的分类算法的分类性能和模型泛化能力都将受到限制。本文主要在文本的表示方法和深度学习模型两方面研究中文文本的分类技术,将中文文本表示方法和优秀的深度学习算法相结合,在文本分类任务中实现理想的分类效果。本文的研究工作包含以下几个方面:1.基于字符级卷积神经网络的中文文本分类研究。针对中文文本中的多分类问题,提出一种基于字符级文本表示和卷积神经网络的分类方法。首先基于该任务构建了规模达到575000的汉字字符数据集及其对应的三种拼音格式数据集。对于汉字字符数据集,以汉字字符和标点符号构建字符字典;对于三种拼音格式的数据集,以拼音字母、数字以及标点符号分别构建字符字典。然后基于四种字符字典,分别建立相应的字符级文本表示作为模型的输入。最后在汉字字符及其对应的三种拼音格式数据集上进行模型的训练测试。实验结果表明,模型在汉字字符数据集上的性能要优于其对应的拼音格式数据集。此外,在相同数据集上将本文构造的模型与前人使用的模型进行了实验对比,结果显示合适的字符字典和卷积神经网络超参数在中文文本分类任务中起着重要作用。2.基于注意力机制和双向独立循环神经网络的中文情感类别分析。针对作为文本分类领域细分方向的情感分析需要提取丰富的语义特征的问题,提出一种基于词向量、注意力机制和双向独立循环神经网络的分类方法。首先对原始的中文文本去除标点符号和特殊符号,利用分词工具进行中文分词,采用Skip-Gram模型和维基中文语料库对分词后的文本进行词向量训练。然后将文本中各词用其对应的词向量表示,把代表各文本的词向量序列作为双向独立循环神经网络的输入,提取文本的语义特征。最后引入注意力机制,对那些能重点表现情感的词赋予更高的权重,使最终形成的表示文本的特征向量既包含语义信息又包含各关键词的权重信息。在相同的数据集上,将本文设计的模型和LSTM、双向LSTM、GRU以及深度IndRNN进行对实验对比,结果表明本文所设计的模型相比于其它模型在情感类别分析任务中获得了更高的准确率和F1值,说明能多层堆叠IndRNN和具有注意力机制的模型能够提取更加全面而丰富的语义信息,使模型获得更优秀的性能。3.最后结合字符级卷积神经网络和具有注意力机制的双向独立循环神经网络模型,设计了一个混合文本分类系统。