论文部分内容阅读
社交媒体拥有巨大的用户群体,这些用户在社交媒体中留下的活动记录不仅是用户行为的真实反映,同时也记录着社交媒体中的信息传播过程。为研究应急事件背景下用户行为及信息传播过程,本文以流感疫情为背景,采用自主研制的主题微博数据采集系统抓取了新浪微博中与H1N1流感疫情、H7N9流感疫情和普通流感相关的数据集合,以三份数据集合为研究对象,从用户属性和博文属性两个角度对用户行为进行了分析,以博文转发树为基础研究了H7N9流感疫情背景下的信息传播结构特性。 为了完成特定时间范围内指定主题的微博数据采集工作,自主研制了主题微博数据采集系统WeiboCrawler,该系统突破了新浪微博开放平台APIs对转发数据获取次数的限制问题,使用该系统抓取了新浪微博中与流感主题相关的三份数据集合,数据集合包括与流感主题讨论相关的用户档案信息、原创博文信息和转发博文信息。 为了准确清晰的描述数据集合中的实体属性,对数据集合中的实体进行了严格的形式化定义,进而构建了由用户实体、博文实体和转发行为实体组成的微博用户行为模型WUB;以原创博文为根节点,基于转发关系采用递归方法构造了博文转发树,为了严格、清晰的描述微博信息传播过程,给出了包含大小、深度、宽度和度四项结构特性的博文转发树模型,进而研究微博信息传播结构特性。 在用户行为分析方面有以下结论:(1)新浪微博空间中讨论流感疫情的用户主要分布在发达地区,微博用户地域分布情况与相应地域流感疫情的严重程度不具有正相关性;用户的好友/粉丝数量分布体现了“邓巴数字”,新浪微博中用户之间的互惠性较低。(2)在一定范围内,用户社交关系的稠密程度对用户的活跃度有影响;对不同类别的用户行为分析发现男性用户、认证用户参与应急事件讨论的主动性更强;按内容属性对博文进行分类研究发现利用新浪微博提供的功能属性有利于博文获得更多的关注;博文转发/评论次数分布符合重尾分布。 在信息传播结构特性研究方面发现:(1)博文转发树的四项结构特性分布符合重尾分布;博文转发树具有深度小、密度大的结构特性;博文流行程度取决于博文转发树的宽度和度,而与博文转发树的深度无关。(2)考虑微博平台信息传播的特点以及博文转发树的结构特性,结合Galton-Watson分支过程给出了一种新的信息传播模型GWE模型,使用该模型对博文转发树的大小、深度、宽度三项结构特性进行仿真,发现该模型能较准确的体现这些结构特性。