论文部分内容阅读
文本情感分析研究主要有类别型研究和维度型研究,其中维度型研究体现了更加细粒度的情感信息,连续型维度表达可以转换成离散型类别表达。目前中文维度型语料少,维度型研究预测结果准确性低,因此中文维度型研究较难。在情感分析中,反讽是一种特殊的表达,经常使用夸张的语气词等来间接表达与字面意思相反的情感,需要从上下文及语境来了解其用意。反讽语料的结构性特殊,这也给中文反讽程度预测增加了一些难度。本文针对这些问题,在建立的多维度中文反讽语料库Va1ence-Arousa1-Irony三维空间中,进行中文反讽程度预测研究。因为深度学习方法可以自动提取文本特征,所以我们选择用深度神经网络(分别为CNN、LSTM、以及这两者的组合)对多维度中文反讽语料库进行评估(基准模型),对多维度反讽语料库进行建模分析,提出了三种优化预测模型,具体如下:(1)提出了多维度线性调整反讽预测模型MDLA。首先建模分析该语料库的多个情感维度之间的关系,并可视化VAI回归关系。然后依据其他维度的预测结果对单独预测结果进行一定的线性调整,考虑了维度之间的关系特征。实验结果表明该模型预测效果优于基准模型。(2)提出了多维度特征组合反讽预测模型MDFC。MDLA在对VAI单独预测的结果进行调整过程中往往会丢失一些关系特征,影响预测精度。为此,本文利用深度学习神经网络层来生成文本的各维度的重要特征句向量,使用多维度特征组合层来得到文本的VAI情感向量,这样提取到更多的关系特征来进行预测,从而提高预测精度。实验结果也表明该模型的预测效果优于MDLA模型。(3)提出了多维度关系反讽预测模型MDR。该模型充分利用MDLA模型和MDFC模型的优点,对其进行整合。首先用MDFC模型来组合各维度特征向量,计算各维度情感向量,对各维度情感值进行预测。然后利用MDLA对预测结果进行线性调整。实验结果也表明该模型取得最好的效果,优于MDLA模型和MDFC模型。G1ove和Word2vec预训练产生的词向量上的实验表明,在反讽维度上平均绝对误差MAE与皮尔森相关系数r指标都有所改善,MAE分别提升了 18%和14.5%,r分别提升了99.6%和72.7%。