论文部分内容阅读
随着Web2.0应用的快速发展,社交媒体作为社会感知器用于记录人们日常生活、信息共享以及在线交友等,得到了商业界、政治界和学术界的广泛重视。分析社交媒体数据可以了解用户的关系网、理解用户的在线行为以及挖掘用户偏好,从而实现好友、产品以及服务的精准推荐;掌握信息在社交媒体中的传播途径和传播方式可以观测在线用户的集群行为,使虚拟空间成久安之势、建长治之业。因此,收集社交媒体数据,并感知用户在虚拟社区上的集群行为是重要而迫切的研究课题。由于社交媒体数据间具有强烈的依赖关系,传统的抽样技术不适用于收集社交媒体数据。另外,社交媒体数据的海量性、实时性和个性化等特点致使分析社交媒体数据成为一个非常有挑战的任务。而微博作为一类典型的社交媒体,它几乎具备当前社交媒体的所有特征。因此,本文以微博为载体研究了社交媒体数据的获取以及信息在社交媒体上的传播模型。主要贡献如下:·设计和实现了一种基于微博社交网络结构的数据获取方法。根据网络中心化理论,选择可信的、正常的种子用户,通过微博平台的关注网络按照广度优先的策略设计了一个分布式爬虫,爬取并发布了海量微博数据;同时,根据爬取的数据集讨论了微博数据的实时获取。·给出了微博流行度的形式化定义,提出微博的流行度应该用转发量和可能被浏览次数这两种不同的方式进行度量。它们分别从实际受到影响进一步传播该信息的用户数和可能浏览到此信息的用户数两个角度度量了微博的流行度。·研究了微博的生命周期和引爆点。分析表明大多数具有高流行度的微博生命周期小于48小时;并且微博在传播过程中可能存在引爆点,即微博流行度会在信息传播过程中出现二次或二次以上的爆炸式增加。观察发现微博流行度随时间变化服从Sigmoid函数,文章利用Sigmoid函数拟合微博流行度随时间变化,同时给出估计模型参数的算法。实验验证了模型的有效性和参数估计的准确性。·建立了一个网上集群行为资源库,该资源库能以事件为单位,从时间、空间、情绪和传播网络这四个维度对事件进行可视化分析。该平台可以帮助人们了解事件的具体发展,事件参与者的大致组成、民众对事件的观点分布,事件的主要推动者等更进一步的信息。总的来说,本文以微博为载体,探索了基于社交网络结构获取社交媒体数据方法的可行性;基于收集的数据和流行度概念,对微博的传播方式进行了建模,研究微博生命周期和引爆点;最后建立社交媒体用户网上集群行为资源库,从多个维度展示社交媒体数据在研究用户集群行为中的作用。