论文部分内容阅读
目前中文微博是各种社交网络和社会媒体交流的一种重要方式,是web2.0时代的最典型的应用。2009年8月,新浪微博正式上线,并迅速发展成为中国的主流微博,它通过即时通迅方式发布长度不超过140字的内容。随着科技的发展,用户可以通过手机,平板,IM软件和外部API接口等途径发布自己的微博信息。2011年根据CNNIC统计新浪注册用记数已经突破3亿。在微博复杂的的社会网络中,我们主要研究的是各博主的用户行为及关系(包括博主的发贴,博主的粉丝和关注数,活跃频率等)。我们关注那些有较强影响力的博主,进一步分析与这些强影响力博主的有关系的其他用户连接,通常情况下当连接数越多就认为该博主的角色程度越大,反之越小。由于微博各种商业化的形成,导致这种通常情况下的判断出现了较大的偏差,传统的PageRank算法是一种基于网页链接数平均分配PR值的网页排序算法,将此算法直接用于微博用户影响力排序,必定会产生很多的问题。本文基于微博特有的用户关系网络和用户互动行为,设计出一种新的用户节点影响力评估方法—User Impact Rank算法。 本文在对比传统排序算法的基础上,进行了三方面的分析和研究: 第一,新用户的歧视性。近两年微博用户迅猛增加,微博用户的增加使其整个网络间的关系更为复杂,微博用户影响力的评估也变的更加困难,老用户由于加入微博社区的时间比新用户长,他们的粉丝数和发的微博数都占很大的优势,老用户发的微博引起的用户间的互动也会在某一小范围内高于新用户发的微博,但是某些新用户的影响力明显会高于老用户的影响力,传统排序算法没有考虑到这一点。本文提出了节点相对微力值的概念,考虑到了某些新用户发的微博能够引起交互的持久性和多级转发,形成更大范围的影响,这是大多数老用户的微博所不及的,以此来提高新用户的影响力。 第二,粉丝量变引起用户质变。微博用户的粉丝数是衡量用户影响力的一个重要标准,但是并不是唯一标准。如果两个用户的粉丝数相差甚远,且经传统算法排序得出他们的影响力值相同,但我们更希望看到的结果是用户粉丝数少的那个用户,影响力值应该更胜一筹。因为用户粉丝数少的粉丝质量高,因此该用户的话语权应该比另一用户高。本文提出了节点相对链接质量的概念,考虑到节点入链和节点本身的PR值信息,结合网络中节点的链接结构处理后,提高拥有高质量粉丝的用户节点的影响力值。 第三,水军和僵尸粉干扰。大体而言,如果博主粉丝越多,意味着收听该博主的人数越多,其影响力就越大。但是,中文微博具有两个独特的现象:⑴很多大“V”博主,尤其是一些社会人士,购买数量庞大的僵尸粉丝来营造他们在微博上的虚假影响;⑵一些团队建立庞大的机器帐号来人为地形成扩散和热区,即所谓的“水军”。虚假的用户及虚假的交互行为导致了粉丝数衡量博主影响力的方法很多情况下失效。本文提出了基于用户质量的User Impact Rank算法,综合考虑到僵尸粉丝发帖少、不活跃、影响力低,因而对博主的影响力贡献小,大量水军来袭缺乏交互的持久性和二次传播的作用,对博主所有发帖的影响力贡献也小,有效的解决了水军和僵尸粉对节点影响力评估的干扰。 我们的研究是基于微博社区用户关系网和用户间的交互行为,本文详细介绍了传统PageRank算法,Behavior-Relationship Rank算法和User Impact Rank算法(UIR)的原理,并且通过实验部分给出了三算法的实验结果对比。很好的证明了User Impact Rank算法能有效的弥补上面的不足,更加客观、准确的进行用户节点影响力评估。