论文部分内容阅读
随着移动互联网的快速发展,微博以其丰富及时的信息、舒适的用户体验在人们的生活中被广泛应用。微博已经成为人们信息交流、展示自我的一个重要平台。当下,微博平台的用户规模巨大,而且涵盖的社会阶层十分广泛。微博用户每天在微博平台产生海量内容,这些内容既有普通民众对日常生活的记录分享,也有政府、企业以及其他组织发布的关于社会事务的公告。总的来说,对社会热点事件的关注与探讨才是微博平台的主流,从这个意义来说,微博是当下社会的一个缩影。鉴于微博平台如此巨大的社会影响力,微博活跃内容的及时掌控对微博平台的内容分发控制、网络舆情管理有着及其重要的理论意义和应用价值。目前微博预测已经成为研究热点,其涉及的范畴也非常广泛。本文就活跃微博的预测进行了研究,研究的主要内容包括研究问题建模和解决问题的基于LDA和随机森林的活跃微博预测模型。对于研究问题建模,本文首先分析了和微博“互动”相关的三个操作(点赞、转发、评论),并通过权重求解的方式构建了微博互动的数学模型;然后本文分析了微博活跃度和互动值以及微博活跃度与粉丝数之间的相关性;最后给出了微博是否活跃的数学判定模型。对于活跃微博预测模型,本文首先根据影响微博活跃因素的分析以及研究特体的特殊性分析,设计了爬虫并爬取了相关微博数据。然后基于预处理后的数据集,本文利用微博活跃判定模型对微博是否活跃进行标注,构造特征集。接着本文使用LDA建模的方式的对微博博文的主题进行发掘,经过Gibbs采样之后获得文档-主题的概率分布矩阵,概率矩阵经过离散化处理之后并入原始特征集获得优化后的(即包含主题信息的)特征集。对于预测模型的算法选择,本文基于微博平台的的数据特点,对比分析了多种预测算法;然后选择了和数据特点契合度较高的随机森林模型;最后本文对随机森林算法进行了平衡化处理。最后本文在模型训练、参数调优的基础上,采用对比实验的方式对本文的活跃微博预测模型进行效果验证。实验结果表明,本文提出的基于随机森林算法和LDA主题模型的活跃微博预测模型取得了良好的预测效果,是切实可行的。