微博社区的用户节点影响力评估——以新浪微博为例

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:chuanguowuhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前中文微博是各种社交网络和社会媒体交流的一种重要方式,是web2.0时代的最典型的应用。2009年8月,新浪微博正式上线,并迅速发展成为中国的主流微博,它通过即时通迅方式发布长度不超过140字的内容。随着科技的发展,用户可以通过手机,平板,IM软件和外部API接口等途径发布自己的微博信息。2011年根据CNNIC统计新浪注册用记数已经突破3亿。在微博复杂的的社会网络中,我们主要研究的是各博主的用户行为及关系(包括博主的发贴,博主的粉丝和关注数,活跃频率等)。我们关注那些有较强影响力的博主,进一步分析与这些强影响力博主的有关系的其他用户连接,通常情况下当连接数越多就认为该博主的角色程度越大,反之越小。由于微博各种商业化的形成,导致这种通常情况下的判断出现了较大的偏差,传统的PageRank算法是一种基于网页链接数平均分配PR值的网页排序算法,将此算法直接用于微博用户影响力排序,必定会产生很多的问题。本文基于微博特有的用户关系网络和用户互动行为,设计出一种新的用户节点影响力评估方法—User Impact Rank算法。  本文在对比传统排序算法的基础上,进行了三方面的分析和研究:  第一,新用户的歧视性。近两年微博用户迅猛增加,微博用户的增加使其整个网络间的关系更为复杂,微博用户影响力的评估也变的更加困难,老用户由于加入微博社区的时间比新用户长,他们的粉丝数和发的微博数都占很大的优势,老用户发的微博引起的用户间的互动也会在某一小范围内高于新用户发的微博,但是某些新用户的影响力明显会高于老用户的影响力,传统排序算法没有考虑到这一点。本文提出了节点相对微力值的概念,考虑到了某些新用户发的微博能够引起交互的持久性和多级转发,形成更大范围的影响,这是大多数老用户的微博所不及的,以此来提高新用户的影响力。  第二,粉丝量变引起用户质变。微博用户的粉丝数是衡量用户影响力的一个重要标准,但是并不是唯一标准。如果两个用户的粉丝数相差甚远,且经传统算法排序得出他们的影响力值相同,但我们更希望看到的结果是用户粉丝数少的那个用户,影响力值应该更胜一筹。因为用户粉丝数少的粉丝质量高,因此该用户的话语权应该比另一用户高。本文提出了节点相对链接质量的概念,考虑到节点入链和节点本身的PR值信息,结合网络中节点的链接结构处理后,提高拥有高质量粉丝的用户节点的影响力值。  第三,水军和僵尸粉干扰。大体而言,如果博主粉丝越多,意味着收听该博主的人数越多,其影响力就越大。但是,中文微博具有两个独特的现象:⑴很多大“V”博主,尤其是一些社会人士,购买数量庞大的僵尸粉丝来营造他们在微博上的虚假影响;⑵一些团队建立庞大的机器帐号来人为地形成扩散和热区,即所谓的“水军”。虚假的用户及虚假的交互行为导致了粉丝数衡量博主影响力的方法很多情况下失效。本文提出了基于用户质量的User Impact Rank算法,综合考虑到僵尸粉丝发帖少、不活跃、影响力低,因而对博主的影响力贡献小,大量水军来袭缺乏交互的持久性和二次传播的作用,对博主所有发帖的影响力贡献也小,有效的解决了水军和僵尸粉对节点影响力评估的干扰。  我们的研究是基于微博社区用户关系网和用户间的交互行为,本文详细介绍了传统PageRank算法,Behavior-Relationship Rank算法和User Impact Rank算法(UIR)的原理,并且通过实验部分给出了三算法的实验结果对比。很好的证明了User Impact Rank算法能有效的弥补上面的不足,更加客观、准确的进行用户节点影响力评估。
其他文献
垃圾邮件泛滥问题日益严重,垃圾邮件过滤技术日益成为当今的研究热点。目前垃圾邮件过滤技术主要包括第一代基于规则的过滤技术、第二代基于内容的过滤技术和第三代基于行为
图像检索技术起源于上个世纪八十年代,人们主要是通过对关键字手工标记进行图像检索。而后随着图像处理技术的迅速发展,基于内容的图像检索(CBIR)技术在图像处理领域得到广泛
随着互联网和信息技术的高速发展,互联网上的信息急剧膨胀,造成了信息过载问题,导致用户很难从海量信息中获取自己所需要的信息。如何快速有效地帮助用户找到所需的信息、解决信
随着角色动画在电影游戏等行业的大量应用,人体动画合成研究已经成为计算机图形学中一个重要的研究领域。三维人体动画合成技术从传统的依赖动画师经验的手工制作到结合运动
近年来,气象灾害频繁发生,严重影响国家经济发展和人民的生命财产安全。人们对于气象预报的准确性和实时性提出了更高的要求,因此对数值天气预报技术的要求也越来越高。数值天气
运动目标检测与跟踪是计算机视觉、图像处理与模式识别的重要研究课题,其主要目的是获取目标的位置、速度以及运动轨迹特征。它是图像处理的关键底层技术,不是一个单独的研究模
在过去的几十年间,现代计算机智能设备及网络通信技术的高速发展和普及,使得数字化生活及办公正逐步影响着人们日常生活。作为科学技术应用的前沿领域之一的医学科学,信息技术带
随着互联网与电子商务的快速发展,网络信息与资源正以空前的速度迅猛增长,信息过载问题越来越严重。如何帮助用户快速准确地发现其需要的信息成为大数据时代的热点问题之一。
随着互联网技术的快速发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,信息的生产者和消费者都遇到了极大的挑战:信息生产者渴望自己生产的信息脱颖而出,受到
现实世界中存在着诸多复杂的网络结构,为了揭示隐藏在复杂结构中有价值的信息,网络结构图的思想引起了研究人员的注意。图是网络结构建模的方法,现实生活中很多实体都可以抽象为