论文部分内容阅读
随着互联网技术的飞速发展,微博已经成为人们生活中重要的一部分。由微博引发的舆情也越来越受到各界的关注。由于微博信息的传播速度快,传播范围广以及微博消息发布的任意性,使微博上的信息有真有假,有虚有实。正面的微博舆情和负面的微博舆情会给人们的生活带来截然不同的影响,有些负面的微博舆情甚至会构成危机,严重影响社会公共安全。因此,对微博舆情预测的研究具有现实意义。进行微博舆情的预测,首先要获取能够表示微博舆情的数据。本文采用离散的时间序列描述微博舆情的趋势。本文以新浪微博平台为背景,对微博文本中的热点话题进行提取、分析并对微博舆情进行预测。时间序列获取的步骤:一是用新浪微博的API接口,获取一段时间内的微博文本;二是根据微博文本的特点进行相应的预处理后,使用微博话题统计的方法,发现微博热点话题;三是统计一段时间内微博热点话题的回复数和转发数,组成舆情预测模型实验中的时间序列数据。BP神经网络能够较好地拟合微博舆情时间序列的非线性变化的函数关系,能用其预测微博舆情,但是也存在着一定的局限性:BP神经网络的学习算法对已经学习的样本有遗忘。在样本中有噪声时,可能会使BP神经网络的性能变差;BP神经网络还存在收敛速度慢、容易陷入局部极小值的缺点。我们做了两个工作:一是对BP神经网络的网络结构进行改进。在BP神经网络的输入层后面添加一个神经元层—输入承接层,当样本中出现噪声时,能够延迟网络参数调整,从而提高BP神经网络的性能。二是用遗传模拟退火算法(GSA)对BP神经网络的网络参数进行优化。GSA具有收敛速度快,能够较好的避免出现局部极小值的问题,从而弥补BP神经网络的收敛速度慢,容易陷入局部极小值的不足。本文对从已有的微博中获取的舆情时间序列,分别用四种舆情预测模型进行舆情预测对比实验。实验结果表明,用GSA优化的改进BP神经网络的舆情预测模型能够取得较好的预测效果。