论文部分内容阅读
传统的情感分析方法主要包括情感词典和机器学习方法,情感词典方法的思想是将语料库中词与情感词典中的词进行匹配进而得到情感极性,但由于存在一词多义的现象,难以构建一个完备的词典,因此该方法存在明显的缺陷。机器学习方法则是利用朴素贝叶斯,最大熵和SVM(Support Vector Machine,支持向量机)等机器学习算法来实现情感分析,但其缺少泛化能力,不能够较好的用于多种场景。深度学习方法通过自动调整参数,不断的优化模型,不仅能够获得较好的分类效果且具有较强的泛化能力,能够应用在多种场景中。CNN(Convolutional Neural Networks,卷积神经网络)利用卷积操作和下采样的方式能够获取到文本深层次的语义信息和抓取文本的主要特征,减少网络维度,提升训练速度。LSTM(Long Short-Term Memory,长短期记忆网络)通过记忆细胞机制能够获取长距离的语义信息,学习句子之间的依赖关系,减少情感语义的丢失。注意力机制通过给每个词分配不同的权重,情感极性较强的则权重较大,在特征获取方面优于只获取情感极性较重的若干个词或平均获取每个词的信息。基于以上思想,本文通过对情感词典、深度神经网络和注意力机制的融合,设计、优化模型,提出了两种混合模型做情感分析,以提升情感分类的效果。本文主要工作如下:1、针对传统神经网络模型单一和输入数据处理不足的问题,利用情感词典对文本数据中的单词进行极性筛选,以CNN、BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)和注意力机制为基础,提出一种结合情感词典和并行神经网络的文本情感分析模型(SDPCNN-BiLSTM)处理二分类问题,在英文数据集IMDB(Internet Movie Database,国外大型的电影评论数据集)和SST(stanford sentiment treebank,斯坦福大学在影评数据上开发的情感树库)上进行实验。实验结果表明,SDPCNN-BiLSTM模型提高了分类的准确率和召回率。2、针对传统的深度学习算法做情感分析未充分考虑文本特征和输入优化的问题,利用情感词典对文本数据中的句子进行极性排序,以CNN、BiLSTM和注意力机制为基础,提出一种结合注意力机制和句子排序的双层CNN-BiLSTM模型(DASSCNN-BiLSTM)处理多分类问题,在英文数据集IMDB、Yelp2014(美国最大点评网站Yelp于2014年的餐馆数据集)和Yelp2015(美国最大点评网站Yelp于2015年的餐馆数据集)上进行实验。实验结果表明,DASSCNN-BiLSTM模型提高了分类的精度并且降低了MSE值。