论文部分内容阅读
随着科学技术,尤其是移动互联网的发展,互联网上产生了许多包含用户观点和情感的文本数据,并且每年都在快速增长,如果能利用文本情感分类技术挖掘这些数据的情感信息,将有助于了解民众对于公共事件的观点和态度,有助于商业公司了解产品和用户。因此,研究文本情感分类技术具有重要社会意义和商业价值。目前常用的情感分类方法有基于规则的情感分类和基于机器学习的情感分类。而基于规则的情感分类非常依赖规则和情感词典质量,基于机器学习的情感分类算法依赖于人工设计特征表示,并且这两类算法往往无法从语义层面进行情感分类,无法处理较为复杂的依赖关系。最近几年,深度学习技术在自然语言处理领域取得了广泛应用,深度学习又叫表示学习,能够学习文本的特征表示,并能处理上下文依赖关系。所以,本文将研究如何利用深度学习技术进一步提升文本情感分类算法的准确性。由于循环神经网络能够处理长距离依赖关系和捕获输入文本的语义信息,卷积神经网络常用来提取输入文本的n元语法特征。本文提出了一种结合循环神经网络和卷积神经网络的文本情感分类模型(BL_CNN),BL_CNN模型主要包括词嵌入层、双向循环神经网络层、卷积神经网络层和输出层。BL_CNN模型首先通过词嵌入层得到输入文本的词向量表示,再利用双向循环神经网络得到输入文本的上下文表示,再通过CNN得到输入文本的向量表示,最后由输出层得到情感类别。由于循环神经网络易过拟合,而标准的dropout并不能有效防止循环神经网络过拟合,BL_CNN模型引入了一种更适合循环神经网络的变分dropout。实验表明,BL_CNN模型在多个数据集中能取得当前已知最高准确率。相比当前已知最佳模型,BL_CNN模型在斯坦福情感树库数据集中有1.3%的提升,在MR数据集中有0.6%的提升,在中文酒店评论文档数据集中有0.5%的提升,在IMDB数据集中的准确率仅次于最佳模型。通过以上数据集的实验结果表明,将循环神经网络同卷积神经网络结合,能够进一步提升文本情感分类算法的准确性。