论文部分内容阅读
网络技术的普及,使得越来越多的用户喜欢在互联网上发表自己的意见与看法。微博作为一种社交软件,更是人们信息交流的聚集地。微博依靠转发关系在关注网络中进行传播,对于微博转发量的预测,在一定程度上可以提前预判出一条微博的舆论影响力。同时,当一条微博在用户关注网络中进行传播时,如果被某些影响力大的用户转发,那么该条微博的转发量可能就会突增。本文结合Spark计算平台以及相关算法,基于微博原始数据,对微博分时转发量预测和微博转发爆炸点问题进行研究,主要工作如下:1)微博分时转发量预测方法设计。在微博转发量趋势与发表后时间间隔关联性方面,本文提出一种基于文本相似与时间序列模型融合的方法TS-ARMA。首先结合分词、文本相似算法计算源微博相似微博集合,其次基于相似微博以及相似微博权重值计算源微博初始时间段转发量时序特征,最后基于ARMA建模预测微博发表后未来不同时间间隔的转发量。同时,本文基于XGBoost算法对微博分时转发预测进行研究,重点引入微博用户粉丝特征以及用户经常转发微博时间特征。对微博转发量的预测具体细化到其发表之后的时间间隔,在微博舆论传递时效性方面,提前判定出微博在不同时间的舆论影响力,从而达到监控的作用。2)微博转发爆炸点分析模型设计。本文基于FP-Growth频繁项集算法挖掘用户间可能存在的频繁转发模式,提出了一种基于频繁转发网络中用户点出度与用户对应微博被转发速度相结合的方法,来判定其成为微博转发爆炸点的可能性。TS-ARMA模型实验结果表明,在历史微博充足情况下,基于TF-IDF算法与时间序列融合方法对分时转发量预测效果更好。在XGBoost算法预测方面,实验结果表明在发表后5分钟时间间隔的最大转发量命中率达到62%,通过合理调整转发量命中区间,可以进一步提高转发量命中率。微博爆炸点判定方面,实验结果表明,对被转发次数较大的用户进行研究,结合用户间的频繁转发关系以及对应微博的转发速度,三者方式结合而判定出用户,其成为微博爆炸点可能性大。