论文部分内容阅读
微博作为当下流行的社交网络之一,每天都会产生数以万计的新闻,热点事件在微博上呈现爆发式地传播,如何在微博传播的早期对微博未来的流行度进行预测成为了一个十分具有挑战的问题。挑战的难点在于,难以测量已知的影响内容流行度的各种因素,例如内容的质量或其与用户的相关性等。流行度预测问题在商业和行政应用中也具有显著的实用价值,例如舆情监控、网络营销等。传统的流行度预测方法一般是基于分类或回归模型、点随机过程和传染病模型。基于分类或回归模型依赖于特征的提取,特征的选取是启发式的并且提取过程十分繁琐,且无法刻画出微博的动态传播过程。基于点随机过程模型一般无法利用历史消息监督,性能会有所缺失。基于传染病模型使用数学方法建模,忽略了用户之间的网络结构。针对以上问题,本文通过对微博自身传播特点的研究和学习,提出了基于时间和用户的转发序列的微博流行度预测模型(Popularity Prediction model based on Retweet Sequence of timestamp and user,PPRS)。通过实验比较了本文提出的模型与三种基准方法的性能,证明了PPRS模型的有效性。本文的主要研究工作如下:(1)本文对流行度预测问题已有方法进行了分析与总结,分析了基于分类或回归模型、基于点随机过程以及基于传染病模型等三种预测方法的优缺点。(2)本文利用了循环神经网络的特点,对微博的转发序列进行建模,每个时间步上转发时间和转发用户表征成向量作为模型输入。经过循环神经网络可以有效地利用历史监督信息,然后经过中间层学习到每个转发时刻的速率,进而可以计算出微博在早期的趋势变化,也即趋势加速度。同时,综合各种分析,本文发现用户活跃度对微博的流行度有着很大地影响。因此,本文将用户活跃度量化,加入到模型中,提高模型的精准率。(3)本文先提出了一种基于时间转发序列的微博流行度的预测模型,建模微博转发序列中的时间信息,学习微博趋势加速度,与用户活跃度以及早期微博流行度结合起来,预测微博最终的流行度。然后考虑了用户在传播过程中的影响,将用户的兴趣爱好融入模型,本文提出了一种基于时间及用户的微博流行度预测模型,该模型既利用了历史传播信息,又很好地刻画了微博的传播过程,具有较强的灵活性。通过对比实验也证明,该模型在流行度预测问题上有较好的预测性能。