论文部分内容阅读
文本情感分类技术具有很高的商业价值,是自然语言处理领域中的重要问题之一。目前基于有监督的深度学习算法在解决情感分类问题上取得了显著进展,然而训练深度模型需要大量标记数据,限制了这类算法在新产品领域的进一步推广。最近几年,如何解决训练数据缺乏的问题,已经成为自然语言处理领域的研究热点。对于新产品领域的情感分类,我们分别从构建跨领域模型和增强领域语义两个方面,展开面向情感分类的领域适应方法研究,本文的主要内容和创新点有:(1)提出一种基于多领域注意力机制-对抗训练的双向门控循环单元(MDAMATBiGRU)模型的多源跨领域情感分类方法,该方法克服了传统单源跨领域方法的局限性。本文为了在多个领域均存在标记数据的情况下有效利用所有标记数据,在注意力层中加入了一组用于学习领域特性的参数矩阵,使得注意力层能够依据领域特性进一步区别对待输入数据,给予每条数据不同的注意力权重,帮助模型有效学习所有数据中的情感特征。另外,为抑制文本建模中领域变化的影响,使捕获到的特征能够在领域之间共享,我们对BiGRU层进行了领域对抗训练。在亚马逊多领域产品评论语料上的实验表明,本文提出的模型具有良好的跨领域分类性能,能够较好地利用所有领域中的训练数据。(2)提出一种基于双通道卷积神经网络的领域适应词嵌入层(DAL),用于增强文本表示的领域语义,提升现有情感分类模型的性能。本文首先利用关键字词典,将特定领域词嵌入映射到通用词嵌入所在的向量空间,然后通过DAL学习权重将两者结合,最终得到适合该特定领域的文本表示。DAL可以作为现有情感分类模型的输入层。通过在亚马逊产品评论语料上进行实验,验证了本文所提方法的有效性。