论文部分内容阅读
在大数据时代背景下,信息技术和计算机的使用逐渐常态化,尤其是手机使用的迅速普及,使得网络成为获取信息并且发表意见的重要渠道。而网络舆情就是因为某些事件的发生而在网络上被众多群众讨论而形成的。近年来,深度学习情感分析被大量应用于文本资料分析,但大部分都是对电影或者商品评论进行分析,很少有分析中文文本倾向和网络民意收集的。因此为了判断群众对事件的意见倾向,帮助政府在一定特殊时期及时做出相关决策,分析网络舆情的文本倾向性意义重大。为了及时掌握社情民意的情感倾向,本文研究设计了一个基于深度学习的文本倾向性分析系统。拟使用网络爬虫爬取特定网站的网络舆情文本信息,将语料进行预处理,通过深度学习对网络舆情文本信息进行正负倾向判定。论文给出了系统的总体架构,重点对几种不同的深度学习框架在网络舆情倾向预测的有效性进行了研究。论文给出了系统的总体架构,重点对集中不同的深度学习框架在网络舆情倾向预测的有效性进行了研究。本文利用某部门已经人工标注的舆情倾向数据库作为标准数据集(含99168条舆情文本),使用不同的深度学习框架LSTM、BLSTM、GRU、CNN对数据进行训练和验证,并对框架中的激活函数(sigmoid、tanh、ReLu)和优化器(Adam、AdaGrad)进行训练和测试,以找到适合舆情预测的最优组合。并利用CNN特征提取能力较强,而BLSTM能够读取上下文的特性,将CNN和BLSTM进行组合,构建了CNN+BLSTM、CNN+LSTM和CNN+GRU框架,和基础的4个框架,共构成42种组合,用验证准确率、验证损失率、是否出现过拟合现象以及消耗时间为评估依据,寻找最优框架及组合。实验结果显示,不同激活函数和优化器对模型影响很大,但sigmoid激活函数最适合本系统。而验证准确率最高的模型是CNN(sigmoid+Adam),为97.84%,其次是CNN+BLSTM(sigmoid+AdaGrad)模型,验证准确率为97.72%。激活函数sigmoid搭配优化器AdaGrad时,CNN+LSTM的验证准确率为97.5%,证明组合模型CNN+BLSTM、CNN+LSTM在使用激活函数sigmoid搭配优化器AdaGrad时分类效果优于单独的模型。综合分析发现,虽然CNN+BLSTM的验证准确率较高,但是其耗时太长,实际应用会严重影响时效性,并且激活函数和优化器不同结果差距较大。而7个模型中只有LSTM模型的6种组合验证准确率均超过95%,并且耗时较短,准确率也较高,损失率较低。因此本文认为LSTM模型比较适合应用于实际应用。最后本文利用LSTM模型对“西安禁烟”微博话题进行了实际测试分析,其准确率为89.58%,分析发现其中含有反讽语气和有错别字的语句判断错误,原因可能是训练模型的数据来源大多数是正面新闻报道,网民表达想法的微博数据占比较小,因此利用LSTM模型基本能够正确判断意见倾向。