论文部分内容阅读
在现代网络时代中,微博成为现代网民表达意见和情感观点的主要载体,在社交媒体中占据了很大比重。大部分微博评论表现了网民用户针对某个事件、现象或者用户与产品的情感状态。而使用何种算法与处理方式可以更快、更准确的分析这些微博文本信息,及时获取针对某个话题或事件的微博评论情感倾向,获得话题舆论倾向性也成为自然语言处理领域的研究热点。传统的情感分析方法常常使用文本的统计特征或情感词典构建句子特征,这种方法存在无法获取句子语义信息和分类误差率高的缺点。而现在网络上的数据量不断增大,统计特征的提取难度也不断增加,同时情感词典的判断方式(仅通过情感词计数)相对简单且鲁棒性低。而传统的统计机器学习方法使用文本的统计特征训练,并不能很好的学习到文本的语义信息。为了解决上述问题,本文提出一种基于词嵌入文本特征的深度学习改进算法,进行微博评论的情感分析工作。本文的创新点主要有:(1)使用神经网络语言模型在较大规模语料数据上进行训练,以更方便的无监督训练方式学习词语的隐层语义特征,使用词嵌入向量取代传统文本特征的提取方法,然后使用该文本特征进行深度模型的监督训练;(2)为了在深度模型训练时可以获得更多文本语义特征,更有效的完成文本情感分析任务,在深度模型中引入了可以改变序列信息权重的注意力机制,提出了基于注意力机制的RNN-att和RCNN-att等模型;(3)为了同时提取语句各部分局部特征和语句位置依赖信息,本文提出了层级平行行融合的C-RNN模型,使用卷积提取局部特征的同时,在模型同一层使用RNN模块来记忆位置依赖关系。为了验证本文提出方法的有效性,本文使用Word2Vec训练语言模型提取词向量特征,并使用统计模型SVM、随机深林、梯度提升树、高斯朴素贝叶斯和深度模型TextCNN、RNN、RCNN和C-RNN等模型基于词嵌入文本特征来学习微博评论中的情感信息,输出情感分类结果。本文使用爬取到的微博评论文本42万条和其他补充中文数据集作为语言模型的训练语料。并从训练语料集中筛选得到35285条数据标注后作为模型数据集,以9:1比例分割为训练集和测试集。性能评估使用精准率、召回率、F1-Score作为评测指标,在上述数据集上进行了多组模型间的对比实验。根据实验结果,统计模型中GBDT使用300维度词向量获得了较佳的表现精准率为0.8417、召回率为0.8416和F1-Score为0.8416,在深度模型中RCNN-att使用200维度词向量获得了最佳的性能表现精准率为0.9266、召回率为0.9266和F1-Score为0.9266,且当词向量维度为50时,C-RNN-att获得了该组数据中的最佳性能表现,F1-Score为0.9153。以上实验结果表明,神经网络语言模型词嵌入可以比较好的学习语言文本的隐层语义信息,且基于词嵌入文本特征的深度模型在情感分析任务中比统计模型有着更好的性能表现,且通过引入注意力机制可以进一步使深度模型获得2个千分点~2个百分点左右的性能提升。文章中所研究的改进深度算法,可以在更大规模数据集中展开训练,在更高维度的语言模型中能够进一步提升算法的推理能力。