论文部分内容阅读
传统的用于解决文本情感分析问题的方法包括基于情感词典和人工判定规则的无监督方法、基于机器学习的有监督方法。在数据量不大或者语义不够丰富的时候,这些方法能够取得一定的效果。但是随着数据量越来越大、表达方式越来越丰富,传统的方法已经无法有效地解决这一类问题,新的方法亟待提出。本文根据文本情感分析的特点,结合当下应用领域广泛的深度学习算法,重点研究了基于深度学习的情感分析方法。卷积神经网络和递归神经网络是深度学习中两个主流的模型,前者能够从数据中提取出局部特征,而后者能够有效地分析时序数据、具有很强的上下文概括能力。本文的工作包括以下两个方面:1、基于卷积神经网络和词语邻近特征的情感分析模型。目前,基于卷积神经网络的方法在情感分析任务中已经取得了不错的效果,此类方法使用词向量作为网络的输入,但是在卷积过程中每个词向量只能表征单个单词,并不蕴含上下文信息,这不利于信息传递的连续性,并且卷积操作在局部范围内可能会打乱词向量的序列性。针对这个问题,本文提出一种基于词语邻近特征的卷积神经网络模型,在卷积过程中让每个词向量携带邻近词语的特征,这样既保证信息传递的连续性也保证了词向量在局部范围内的序列性。实验结果表明,在COAE2014、COAE2015的情感分析任务上的准确率分别达到了 89.43%和85.61%,说明本文提出的方法确实可行、有效。2、基于递归神经网络和人工判定规则的情感分析模型。传统的基于情感词典和人工判定规则的分析方法是从语言学的角度出发,但是这种方法需要制定大量的情感词典和判定规则。而基于递归神经网络的分析方法可以通过不断的编码和重构训练,从大量未标注的语料中学习到先验知识。本文在参考了这两种方法之后,在第4章中提出了一种新颖的基于递归神经网络和人工判定规则的情感分析模型。首先利用递归神经网络并行计算出组成文本的多个子句的情感极性,然后根据极性融合规则将多个子句的情感极性进行融合,最后利用人工判定规则计算出原始文本的情感极性。该模型的优点在于:一方面递归神经网络中融入了人工判定规则,使得以往积累的人工经验得到有效利用;另一方面递归神经网络取代了情感词典,避免了情感词典的局限性。该模型在数据集SST-C2和SST-C3上的分类准确率分别达到了 87.8%、81.6%,并且整体性能均优于主流的分类模型,说明该模型不仅新颖,而且确实可行、有效。