论文部分内容阅读
随着信息科技的高速发展,人们越来越习惯于从互联网上获取想要的信息。在线社交网络正是其中一种重要途径,它改变了人们交流和信息交换的方式。近年来,Twitter,新浪微博等社交媒体广受欢迎,用户数量呈爆炸式增长。庞大的用户群体和紧密的连接关系,使得社交平台的影响力远远超过了传统媒体。
大数据时代的到来,给人们提供了前所未有的机会去接触海量的数据,这也促进了在线社交网络中信息传播的研究。但是,社交活动的复杂多样以及社交网络的快速变化,使得在线社交平台上信息扩散的内在机制依旧难以捉摸。对社交媒体上信息扩散过程的理解,有利于预测并协调各种在线社交活动,具有重要的研究意义。本文研究内容主要包括以下几个方面:
1. 社交平台Twitter上信息传播数据的获取。基于Linux平台,利用Python网络爬虫从Twitter API上抓取有关数据。本文从两个角度对Twitter上的信息扩散过程进行研究,一个是仅时间维度,另一个是时间和空间两个维度。为研究时间序列,抓取了政治、娱乐等不同类型推文在 50小时内的转发数据,包括转发者 ID以及该用户转发和信息源发布这则消息之间的时间间隔;为探索时空分布,爬取了某较受欢迎用户的社交网络结构即三层粉丝 ID,以及其某些推文的转发数据。
2. 基于时间序列的信息传播预测。针对信息传播的特点,本文采用了四种时间序列方法研究信息在社交网络上的传播,并对其扩散趋势进行预测。不仅引入了传统的 Logistic 模型和 ARIMA 模型,还基于这两个模型提出一种残差模型来进行预测。此外,LSTM模型也被用来预测信息的传播范围。用 Twitter 上的转发数据进行验证,结果表明LSTM模型预测的准确度更高。
3. 基于偏微分方程模型的信息传播时空分布预测。现有的大多数模型都是基于常微分方程建立的,仅探索社交网络中信息随时间的扩散过程。本文基于偏微分方程提出了一个递归扩散模型,研究信息在社交网络上的时空分布。用Twitter上爬取的真实数据集对模型进行验证,采用 Levenberg-Marquardt 算法估计模型中的未知参数。其中,考虑了两种类型的固有增长率 r,即常量和指数衰减的形式。实验结果表明,该模型能准确描述信息在Twitter上的传播趋势,且预测准确率高于文献中提出的扩散逻辑模型。
大数据时代的到来,给人们提供了前所未有的机会去接触海量的数据,这也促进了在线社交网络中信息传播的研究。但是,社交活动的复杂多样以及社交网络的快速变化,使得在线社交平台上信息扩散的内在机制依旧难以捉摸。对社交媒体上信息扩散过程的理解,有利于预测并协调各种在线社交活动,具有重要的研究意义。本文研究内容主要包括以下几个方面:
1. 社交平台Twitter上信息传播数据的获取。基于Linux平台,利用Python网络爬虫从Twitter API上抓取有关数据。本文从两个角度对Twitter上的信息扩散过程进行研究,一个是仅时间维度,另一个是时间和空间两个维度。为研究时间序列,抓取了政治、娱乐等不同类型推文在 50小时内的转发数据,包括转发者 ID以及该用户转发和信息源发布这则消息之间的时间间隔;为探索时空分布,爬取了某较受欢迎用户的社交网络结构即三层粉丝 ID,以及其某些推文的转发数据。
2. 基于时间序列的信息传播预测。针对信息传播的特点,本文采用了四种时间序列方法研究信息在社交网络上的传播,并对其扩散趋势进行预测。不仅引入了传统的 Logistic 模型和 ARIMA 模型,还基于这两个模型提出一种残差模型来进行预测。此外,LSTM模型也被用来预测信息的传播范围。用 Twitter 上的转发数据进行验证,结果表明LSTM模型预测的准确度更高。
3. 基于偏微分方程模型的信息传播时空分布预测。现有的大多数模型都是基于常微分方程建立的,仅探索社交网络中信息随时间的扩散过程。本文基于偏微分方程提出了一个递归扩散模型,研究信息在社交网络上的时空分布。用Twitter上爬取的真实数据集对模型进行验证,采用 Levenberg-Marquardt 算法估计模型中的未知参数。其中,考虑了两种类型的固有增长率 r,即常量和指数衰减的形式。实验结果表明,该模型能准确描述信息在Twitter上的传播趋势,且预测准确率高于文献中提出的扩散逻辑模型。