论文部分内容阅读
文本分类是文本挖掘中非常重要的环节,在人工智能时代有着巨大作用。对于文本分类,传统方法以人工提取特征的机器学习模型为主,但随着神经网络结构的不断发展,深度学习在语言、图像等领域取得巨大突破,其特征表示能力远超传统方法。本文以提高文本分类模型的分类性能为目标,详细介绍基于传统机器学习算法的文本分类一般流程,以及常用的文本表示方法和文本分类性能评估。本文主要利用深度学习模型进行文本分类的研究,相关内容如下:(1)TextCNN和双向门限循环单元网络(Bidirectional Gated Recurrent Unit Network,BiGRU)模型。这两种模型可在原始文本输入的基础上更好的实现端到端分类,从而可避免手工设计特征等问题。经特定数据集验证后,相对于κ近邻、支持向量机、逻辑斯蒂回归和朴素贝叶斯等传统模型,本文运用的TextCNN和BiGRU模型可以有效提高准确率和AUC值。(2)基于胶囊神经网络(Capsule Neural Network,CapsNet)和BiGRU的混合文本分类模型BiGRU-CapsNet。CapsNet在图像领域具有较好的分类效果,但在文本分类领域应用较少,本文将BiGRU和CapsNet结合,提出了BiGRU-CapsNet文本分类模型,将CapsNet推广到文本分类领域。该模型同时具有BiGRU和CapsNet的优点,在BiGRU提取前向和后向文本特征的基础上丰富特征提取的角度,经实验比较后表明,BiGRU-CapsNet相对于BiGRU模型具有更好的分类性能。