论文部分内容阅读
文本分类是自然语言处理中的基本技术之一,许多研究都与文本分类有关,例如新闻主题分类、问答系统分类和电影评论分类等。如果依靠人工进行文本分类,不仅耗时长,而且效率低下,所以利用现有的计算机技术进行自动文本分类是非常重要的研究方向。本文主要研究了两大类文本分类的方法,一类是利用传统的机器学习方法进行文本分类,另一类是使用深度学习方法进行文本分类。首先本文基于传统的机器学习方法设计了两种分类器,一种是朴素贝叶斯分类器,另一种是支持向量机分类器。计算机不能处理文本,因此需要把文本表示成向量后才可以进行分类。这两种分类器采用的是基于词袋的词频映射方法和词频-逆文档频率特征表示的方法。在搜狗数据集和搜狐数据集上进行了实验验证,最终发现使用SVM分类器与TF-IDF特征相结合的文本分类器效果最好,在两个数据集上都达到了89%的准确率。接下来使用深度神经网络设计了两种文本分类模型,一种是使用标准的双向长短时记忆网络进行文本分类,另一种是将其与attention机制相结合进行文本分类。文本表示方法采用的是one-hot表示方法和基于skip-gram的词嵌入方法。最终在两个数据集上进行实验发现,Bi LSTM与attention相结合的文本分类模型与词嵌入文本表示方法相结合的效果最好,在搜狗数据集上可以达到96%的准确率,在搜狐数据集上准确率可以达到90%。最后本文使用了卷积神经网络进行文本分类。文本表示方法采用了三种,分别是one-hot表示方法、词嵌入方法以及使用双向编码器表示预训练好的词向量方法,本文将这三种表示方法分别与CNN相结合分别在两个数据集上进行实验。最终实验数据表明,在搜狗数据集上,CNN与词嵌入以及BERT相结合的效果最好,准确率可以达到97%;在搜狐数据集上,CNN与one-hot表示相结合的效果反而更好,达到了97%的准确率。这是由于搜狐数据集规模比较小,在小数据集下分布式词向量的效果并不好。而搜狗数据集规模比较大,因此采用分布式向量效果会更好。所以在小数据集上,应尽量避免使用分布式词向量。