论文部分内容阅读
随着互联网的快速发展与智能终端的日益普及,在线社交网络已经成为人们获取信息、传播信息、交友和娱乐等的重要渠道。在线社交网络中的海量用户以相互关注的方式建立社交关系网,信息通过发布、转发、推荐等方式在社会网络中沿着用户社交关系网进行裂变式传播。在线社交网络结构不仅普遍呈现出“物以类聚,人以群分”的社区特性,并且社交网络结构为信息的传播提供了渠道并影响信息的传播。本文以社交网络结构分析为主线,挖掘社交网络中的社区结构,通过追踪信息传播路径构建信息传播树(用户社交关系网的子图),并采用基于统计学零假设的零模型分析信息传播树的结构特性及时权特性,间接研究“新浪微博”中的信息传播特性及网络结构对信息传播的影响。本文贡献如下:(1)总结出从社交网络中同时发现重叠社区与层次社区的统一框架,并据此提出基于最大团的重叠与层次社区发现算法,其中包括针对社区相似性计算的“耦合强度”函数以及基于社区密度的社区质量评估函数。通过对Zachary,Dolphins以及Coauthorship等基准社交网络进行社区发现实验,社区发现结果与社交网络的真实社区划分保持一致;同时,与EAGLE以及CPM算法在GN基准网络上进行对比实验,在社区发现精度方面获取较好提升。(2)在线社交网络具有较强的稀疏性,最大团结构很少,甚至不存在。然而,在不考虑网络中单个节点及边的情况下,每个节点要么位于一个闭三元组中,要么位于一个开三元组中。基于这一事实,同时作为对基于最大团社区发现算法的补充,本文提出了三元组过滤的社区发现算法TPM。通过对基准社交网络进行社区发现,社区发现结果与社交网络的真实社区划分保持一致;并与CPM算法进行对比,实验结果表明:本文提出的TPM算法能较好的从稀疏性较强的社交网络中发现社区结构并拥有比CPM算法更高的社区发现精度。(3)在线社交网络为信息传播提供了渠道,为研究新浪微博中的信息传播规律与网络结构对信息传播的影响,本文通过追踪与还原新浪微博信息传播路径的方式构建信息传播树(由开三元组构成的树状网络结构);然后,考虑到信息在社交网络中传播的偶然性以及数据样本的局限性,本文采用基于统计学零假设的零模型并对传统的重要性剖面进行扩展,分析新浪微博信息传播树的结构特性,包括度关联性、信息传播路径级联率以及社区结构对信息传播的影响,进而间接地实现对新浪微博中信息传播特性与网络结构对信息传播影响的研究。实证分析与实验表明:社区结构同样广泛存在于新浪微博信息传播树中且具有线性模块度分布,信息在社区内广泛传播而社区间的传播受到抑制;信息传播树结构中的小度节点之间的连接以及大度节点之间的连接受到较强抑制,具有阻碍信息传播的作用;小度节点与大度节点之间以及小度节点与中度节点之间的连接抑制较弱,对信息传播具有促进作用。同时,对本文提出的信息传播树零模型与经典的Price模型进行对比,结果验证了本文提出的信息传播树零模型在分析信息传播方面的可行性,并解决了Price随机图模型无法直接生成信息传播树随机化副本的问题。(4)在对新浪微博信息传播树结构特性分析的基础之上,对信息传播树的节点与边引入时权特性,提出了基于时权置乱零模型的信息传播研究方法,研究了网络权重拓扑以及结构对信息传播阵发性与传播规模的关系。通过对新浪微博信息传播树进行实验分析,结果表明:新浪微博用户构成的社交关系网络的结构有助于信息爆发性传播,并发现了新浪微博中信息传播的“5小时效应”。