论文部分内容阅读
当前社交网络已经成为人们进行信息交互的重要平台,在参与社交网络活动的用户中,有少部分用户在网络世界中受到更多其他人的认同与追捧,本文称这部分用户为社交网络中的意见领袖。意见领袖能够在信息交互的过程中对其他用户产生思想或行为上的影响,在信息传播过程、舆论引导和监督等研究中发挥了重要的作用。因此,社交网络中的意见领袖挖掘已经成为社交网络分析的重要组成部分。社交网络中意见领袖的比例较小,但大多数意见领袖挖掘方法都需要评估全网中每个用户成为意见领袖的可能性,导致算法的计算复杂度较高。另外,在社交网络中意见领袖往往比普通用户更容易扩散信息,而当前的信息传播模型常忽略用户角色的不同对信息传播过程的影响,造成信息扩散预测结果的偏差。针对上述问题,本文提出了一种基于两阶段的意见领袖挖掘算法和一种基于用户角色的线性阈值传播模型,以及相关的计算方法与理论。论文的主要工作包括:(1)提出一种基于两阶段的意见领袖挖掘算法。将意见领袖识别的过程分为两个阶段:聚类和排序。在聚类阶段,从社交网络拓扑结构上分析出能充分表现意见领袖特征的拓扑属性,使用K-means算法对用户的拓扑属性进行聚类。并选择满足意见领袖条件的簇加入到候选意见领袖集中,缩小识别意见领袖的数据规模。在排序阶段,分析候选意见领袖集中用户的历史行为数据,从用户活跃度,用户影响力和扩散中心度三个角度计算用户领导力,并依据用户领导力排序获得意见领袖。(2)提出一种基于用户角色的线性阈值模型。模型首先根据激活者和被激活者角色的不同来确定激活者对被激活者的用户影响权重。同时考虑到当同一个用户被多次激活时,最新激活该用户的活跃用户对其影响最大,引入影响权重随时间衰退的概念。动态化影响权重累加的过程,减少信息扩散过程中被多次激活的活跃者总数。(3)在实验中,将本文所提的两个算法分别与多个其他算法进行对比。验证了本文所提出的基于两阶段的意见领袖挖掘算法,能够在降低计算复杂度的同时准确识别意见领袖。也验证了本文所提出的基于用户角色的线性阈值模型,能够量化用户角色对信息扩散过程造成的影响,以及能够有效地减少信息扩散过程中被多次激活的活跃者总数。