论文部分内容阅读
现有的情感分析方法主要分为基于情感词典的情感分析方法和基于机器学习的情感分析方法,而在基于机器学习的方法中,基于深度学习的方法最为流行。基于情感词典的方法十分依赖情感词典的质量及覆盖度,而基于深度学习的方法需要大量的标注数据集。在数据集较小时,基于深度学习的模型容易产生过拟合,多任务学习技术同时对多个任务进行训练,通过利用相关任务中的领域特有信息来提升模型的泛化能力,在一定程度上缓解了过拟合问题。本文对主流的多任务学习技术进行研究后发现以下几个问题:(1)现有多任务学习模型多使用基于LSTM的模型进行情感分析,并使用单层LSTM的最后一个隐藏状态作为文本的隐含特征,这一方法特征提取能力有限且存在有偏表示问题;(2)在文本包含多个情感词且语法结构复杂的情况下,现有方法无法准确识别出整个句子的情感倾向;(3)LSTM由于其循环特性,当前时间步的输入依赖于上个时间步的输出,其并行效率较低,很难完全发挥出GPU的性能;(4)现有多任务学习模型将特征空间分为私有和共享两部分,每个任务都拥有一个独立的私有空间,其内存消耗与任务数量呈线性关系,在任务数较多时十分耗费内存。针对以上问题,本文进行了以下几个方面的工作:(1)本文使用多种方法对ASP-MTL模型进行优化,并提出基于注意力机制的多任务情感分析模型AASP-MTL。这一模型拥有较强的特征表示能力,不仅可以解决LSTM中存在的有偏表示问题,还提供一种可视化分析方法,可以对模型进行更为直观的分析;(2)针对现存的第2个问题,本文将基于情感词典的方法结合到多任务情感分析模型中,利用基于情感词典的方法的优势来解决这此问题;(3)针对于LSTM并行效率差,且现有多任务模型耗费内存的问题,本文提出基于DT的多任务学习模型DT-MTL,此模型有着极高的并行效率和内存使用效率。本文在16个不同领域的情感分析数据集上进行实验,结果表明:在情感分析性能上,AASP-MTL的平均错误率要要低于ASP-MTL模型,DT-MTL模型的平均错误率低于ASP-MTL模型但略高于AASP-MTL模型;在模型并行性能上,DT-MTL模型要远高于AASP-MTL模型。在数据量较小时,使用AASP-MTL模型可以得到较高的情感分析性能,而在数据量较大时,使用并行效率更好的DT-MTL模型可以缩短训练时间。