基于Spark的微博舆论监控系统的设计与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:wanghua8503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的普及,使得越来越多的用户喜欢在互联网上发表自己的意见与看法。微博作为一种社交软件,更是人们信息交流的聚集地。微博依靠转发关系在关注网络中进行传播,对于微博转发量的预测,在一定程度上可以提前预判出一条微博的舆论影响力。同时,当一条微博在用户关注网络中进行传播时,如果被某些影响力大的用户转发,那么该条微博的转发量可能就会突增。本文结合Spark计算平台以及相关算法,基于微博原始数据,对微博分时转发量预测和微博转发爆炸点问题进行研究,主要工作如下:1)微博分时转发量预测方法设计。在微博转发量趋势与发表后时间间隔关联性方面,本文提出一种基于文本相似与时间序列模型融合的方法TS-ARMA。首先结合分词、文本相似算法计算源微博相似微博集合,其次基于相似微博以及相似微博权重值计算源微博初始时间段转发量时序特征,最后基于ARMA建模预测微博发表后未来不同时间间隔的转发量。同时,本文基于XGBoost算法对微博分时转发预测进行研究,重点引入微博用户粉丝特征以及用户经常转发微博时间特征。对微博转发量的预测具体细化到其发表之后的时间间隔,在微博舆论传递时效性方面,提前判定出微博在不同时间的舆论影响力,从而达到监控的作用。2)微博转发爆炸点分析模型设计。本文基于FP-Growth频繁项集算法挖掘用户间可能存在的频繁转发模式,提出了一种基于频繁转发网络中用户点出度与用户对应微博被转发速度相结合的方法,来判定其成为微博转发爆炸点的可能性。TS-ARMA模型实验结果表明,在历史微博充足情况下,基于TF-IDF算法与时间序列融合方法对分时转发量预测效果更好。在XGBoost算法预测方面,实验结果表明在发表后5分钟时间间隔的最大转发量命中率达到62%,通过合理调整转发量命中区间,可以进一步提高转发量命中率。微博爆炸点判定方面,实验结果表明,对被转发次数较大的用户进行研究,结合用户间的频繁转发关系以及对应微博的转发速度,三者方式结合而判定出用户,其成为微博爆炸点可能性大。
其他文献
"中国书画元素"是扬州土特产食品包装上的常见内容。但是,近年来,一些扬州土特产食品包装在运用"中国书画元素"时不断地寻求创新和突破,呈现出一些与以往不同的特征。这些创
采用原位悬浮聚合制备了丙烯酸酯共聚物(ACR)接枝氯乙烯(VC)(ACR-g-VC)树脂和ACR-g-VC/纳米水滑石复合材料,并研究了复合材料的形态、加工塑化性能、力学和热性能。采用原位聚合/熔融
建立了架空导线动态增容的暂态热路模型,通过监测导线温度及导线周围环境温度便可实时计算出架空导线的允许载流量。设计了室内导线加载阶跃电流的实验,结果表明导线温度的理
<正>2012年11月2日,由上海节能信息网带领国内外各领域的节能专业人士,参观了安科瑞的能源管理平台和电力仪表在电能分项计量及能源管理系统中的应用实例,通过用能单位能源管
为研究除冰盐浓度对混凝土盐冻破坏的影响,对浓度分别为0%、1%、3%、5%和7%的NaCl除冰盐溶液冻结形成的盐水冰进行单轴无侧限抗压破坏以及混凝土0%、3%的NaCl溶液慢冻循环试
2001年上海合作组织(SCO)的成立,标志着中国、俄罗斯、哈萨克斯坦、吉尔吉斯斯坦、乌兹别克斯坦和塔吉克斯坦1在安全合作的基础上,贸易等合作愈加紧密。在传统贸易壁垒不断消除
电化学储能电站大规模应用急需解决储能电池的消防问题.目前关于细水雾扑灭锂离子电池的火灾试验多集中在小容量单体电池,试验平台与真实储能舱消防环境相差甚远.因此,根据细
【正】计算机教育在我国作为中学教育的一个试验项目,应该说始于1982年,在此之前,仅在上海、北京等几所中学以课外活动形式开展。1982年,原中央教育部根据参加第三届世界计算机教
雷锡恩公司与洛马公司导弹与火控系统分部组建的合资公司——网火公司最近完成了非视线发射系统(NLOS—LS)的精确攻击导弹(PAM)首次针对移动目标的飞行试验。
《南方都市报》的数据新闻版面是该报最具特色的部分。文章通过对该报三种数据新闻专版的分析来总结都市报在用数据新闻版面讲述民生新闻的优势以及注意事项。 The data sto