论文部分内容阅读
情感分类是指对文本的情感极性进行分析判断,应用于意见挖掘、情绪识别、舆情分析等方面。注意力机制在自然语言处理领域应用十分广泛,在许多分类任务上有较高的准确率。循环神经网络与注意力机制都是端到端的结构,都具备结合上下文的能力。循环神经网络沿着时间方向学习,能记忆顺序信息。但当句子过长时,即便是RNN的变体LSTM也无法学习到较远的词语信息。自注意力机制可以作为编码器,使每个词都能获得全局范围内的上下文信息。对于情感分类算法而言,将情感信息嵌入到网络中以丰富文本表示,这是很重要的。自注意力机制虽然能全局范围注意,但也会由此引入噪音词。较为复杂的语境足以混淆自注意力机制的视听,出现每个带情感的词都很重要的情况,所以自注意力机制仍然有许多改进的空间。考虑将词性嵌入融合到自注意力机制中,本文提出基于融合词性嵌入的自注意力机制的情感分类算法,具体包括两种情感分类算法,分别是基于Pos-IdSA(Part Of Speech Independent Self Attention)的情感分类算法与基于 Pos-ItSA(Part Of Speech interactive Self Attention)的情感分类算法,并在SST-2,MR数据集上进行参数优化实验与算法性能分析实验。实验结果证明,融合词性嵌入的情感分类算法准确率高于基线算法。说明加入词性嵌入后,网络能学习到不同词性之间的语法关系,融合的词性特征有助于提高情感分类算法的准确率。面对较长的复杂语境,自注意力机制的全局注意方式会受到噪音词干扰。本文提出基于带宽度的自注意力机制的情感分类算法,具体包括两种情感分类算法,分别是基于RTA-WSA的情感分类算法和基于WSA-RNN的情感分类算法。基于Glove的实验,对比三种注意力机制在SST-2数据集上的表现力,证明了 WSA结构的有效性。基于RNN的实验,将RNN与Attention连接方式分为串联式与并联式。RTA-WSA主要是将自注意力机制与RNN并联,并提出多宽度的自注意力机制,借助不同的注意范围提取多角度特征。WSA-RNN把带宽度的自注意力机制用于RNN结构之前,为RNN提前补充较远距离的词语信息,弥补了 RNN的不足。通过算法性能分析实验验证了基于带宽度的自注意力机制的情感分类算法的有效性,证明了带宽度的自注意力机制有助于提高情感分类算法的准确率。