论文部分内容阅读
微博自问世以来,便以其实时性和便捷性受到用户的钟爱,成为Web2.0时代网络应用的新宠。庞大的用户数量以及便捷迅速的消息发布与传递方式使其成为了当前信息传播及舆论扩散的重要平台,造就了众多影响力巨大的用户。然而,微博在带来便利的同时,也对舆情管控及国家安全提出了新的挑战。研究微博网络的信息传播过程,挖掘信息传播中的影响力节点,建立针对微博特点的分析方法将具有重要的意义。目前,关于微博中的信息传播与节点影响力研究主要存在以下问题:1)微观层面的传播研究无法全面反映微博中信息扩散效应;2)以静态属性为主要指标的影响力度量方法无法体现微博应用特点;3)当前影响力最大化研究没有引入微博的传播特点和拓扑特征导致相关算法并不适用于微博网络。针对上述问题,本文依托国家“十二五”863计划项目,开展微博网络中的信息传播与节点影响力研究。主要工作和研究成果如下:1.建立了一种基于行为预测的微博网络信息传播模型。首先分析了决定微博用户消息转发行为的因素,提取了一系列数值化特征,利用机器学习中的分类方法建立了用户转发行为的预测模型;在预测模型的基础上设计了微博网络的信息传播规则,刻画了微博用户的群体信息行为,建立了一种阈值传播模型。在新浪微博数据集中的仿真结果表明,通过引入用户的转发行为预测,本文提出的传播模型可以较好的模拟真实网络中信息传播的速度与广度,同时,实验还发现存在一部分影响力用户对信息传播起到关键作用。2.建立了微博网络影响力模型,提出了一种新的影响力度量算法。在对微博用户影响力进行合理定义的基础上分析了决定用户传播影响力的三大因素即活跃度、传播度和粉丝数量,进而提出了影响率的概念来描述两用户间的影响力关联强度,建立了有向加权的用户影响力模型,并在此模型的基础上引入PageRank算法思想,提出了一种新的微博网络用户影响力度量算法MIR-IM(Microblog Influence Rank based on Influence Model)。在新浪微博数据集中的仿真结果表明,MIR-IM算法在挖掘影响力用户的问题中,明显优于经典的PageRank算法。3.提出了一种基于微博网络的影响力最大化算法。分析了实现微博网络影响力最大化需要解决的两个关键问题,即1)建立符合微博特点的影响力传播模型;2)设计高效的Top-K节点选取算法。针对这两个问题,首先引入影响率的概念建立了扩展的线性阈值模型,之后在此基础上设计了启发式的影响力最大化算法框架HGAE。在新浪微博数据集中的仿真结果表明,与传统的社会网络影响力最大化算法相比,HGAE算法通过引入微博特性在最终的影响范围上有明显提升。