论文部分内容阅读
随着互联网技术的不断发展,越来越多的人喜欢通过网络媒体平台发表对事物的意见和建议,表达情感倾向。因此,针对短文本的情感分析逐渐成为文本挖掘领域研究的热点。文本向量化是短文本情感分析方法的重要环节,传统的文本向量化方法没有考虑词与词之间的上下文关系和自然语序对于情感分析的影响,也没有考虑到短文本的情感分析具有明显的主题相关性,所以本文提出循环自编码模型用于训练文本向量,同时使用JST模型(Joint Sentiment-Topic Model)提取短文本中隐含的主题和情感信息。本文主要工作如下:(1)结合循环神经网络和自动编码机的特点和优势,提出循环自编码(Recurrent AutoEncoder,RAE)模型概念,用于短文本向量化训练。RAE模型利用循环神经网络将文本对应的所有词向量按照自然语序相融合,同时每一步的融合都采用了自动编码机来最小化误差,使最终构建的文本向量能够最大化地保留原始文本的内容信息。实验结果证明了相较于其它模型,RAE模型训练所需的时间复杂度较低,并且所构建的文本向量在情感分类中具有更高的准确率,平均准确率在91.2%左右。(2)提出了融合主题和情感信息的JST-RAE(Joint Sentiment-Topic Recurrent AutoEncoder Model)模型。主题因素对短文本情感分析具有重要的影响力,短文本中的一些特征词在不同的主题下具有不同的情感倾向,导致整个文本的情感倾向也具有主题相关性。JST-RAE模型首先利用JST模型计算文本对应的主题和情感的联合概率,然后再利用该概率分布来监督RAE模型训练文本向量,使得最终构建的文本向量能够体现原文本的主题和情感信息。多组不同的对比实验结果表明JST-RAE模型构建的文本向量在情感分析中具有较好的效果。(3)结合情感词典为文本向量扩充情感特征维度,然后再利用不同的分类器对文本向量进行情感极性的分类。短文本具有语义多样性的特点,常用的文本向量化模型对于一些否定词或者反语甄别较为困难,而结合情感词典后的文本向量可以有效提高情感分类的准确率。实验结果表明结合了情感词典的文本向量在短文本情感极性分类中具有较好的效率,在一定程度上解决了否定词和反语甄别问题,同时也证明了不同分类器在短文本情感分类效率上的差异。