论文部分内容阅读
微博诞生以来,以其交互性强、传播速度快、内容简洁等特征获得了大量网络用户的青睐,是当下流行的社交网络。作为广泛应用的信息载体和传输媒介,微博已经拥有了大量的流动信息和活跃用户。其中用户所发表的内容众多且涉及多个行业与领域,并通过大量的粉丝进行评论与转发,从而在各行业产生巨大的影响力。当合理有效地评估微博用户影响力时,则可以使其产生巨大的社会效益,比如进行信息扩散、商品推介和宣传时会达到事半功倍的效果,这对于商业营销来说具有重大的意义。因此,多方位完善地考虑用户在各领域行业的参与度,计算用户在各领域的影响力具有重要的研究意义。目前国内外也有大量的研究者对微博用户影响力进行了研究。微博兴起于国外的Twitter,但Twitter又不同于国内的微博,它没有评论功能。因此传统的微博用户影响力评估方法主要是针对于Twitter,虽然考虑了微博用户的粉丝数、微博数、粉丝质量及其转发数与被提及数等参数,但没有考虑微博的评论功能,存在一定的局限性。通常所说的社会影响力是在特定领域的影响力,每个用户在各个领域的影响力是不同的,因此对用户在各领域的影响力评估也具有重大的意义。而传统研究主要是笼统地对用户进行影响力评估,忽略了微博用户的跨领域性与微博的领域交叉性,没有考虑微博用户在不同领域影响力的评估。因此,针对以上问题,本文提出了基于领域的微博用户影响力的评估方法,该评估方法主要由基于KNN的领域分类算法与微博用户影响力算法构成,解决当前微博用户影响力评估方面存在的问题。本文主要工作和创新点从以下几个方面展开:第一,针对传统研究忽略了微博用户跨领域以及微博交叉性问题,本文应用了基于KNN的领域分类算法。首先由于一个用户通常对多个领域都有所涉猎,因此其发表的微博将涉及不同的领域。其次单条微博所属的领域界限不明显,可能既属于领域A,也属于领域B。以上现象分别为微博用户的跨领域性与领域交叉性问题。为了充分考虑以上问题,本文应用了基于KNN领域分类算法。该算法主要参照微博文本语料库的类标签,依据每条微博文本内容将微博划分为21个领域,从而得到用户在各领域的微博以及微博总数。第二,针对传统研究影响力指标过于简单的问题,本文增加了影响力参数计算指标,提出微博用户影响力计算算法。传统研究主要是从微博数、粉丝数、转发数以及被提及数来度量微博用户影响力。微博用户影响力本质上是用户间的相互作用。而用户间的相互作用除了通过传统参数反映外,还能够通过用户的被评论数、总在线时间与注册时间反映。因此本文充分考虑用户的评论功能、在线时间、注册时间等参数,从而提出微博用户影响力计算算法。第三,进行实验分析。分别运用传统方法与本文提出的评估方法计算微博用户在各领域的影响力,并对该两组数据进行对比与分析。通过实验表明,本文提出的基于领域的微博用户影响力评估方法具有更好的实用性与合理性。本文的研究能够有效地评估用户在各领域的影响力,对商业宣传具有积极的作用,对微博的应用发展具有重要的意义。