论文部分内容阅读
微博作为新网络时代的社交工具,以其使用的便利性与发布信息的实时性迅速风靡世界。微博影响力是用户实际社交影响力的体现,对微博影响力进行准确评价不仅可以帮助用户找到有价值的信息而且还能为微博的进一步扩展应用提供基础。但现有微博影响力评价模型普遍存在以下不足之处:(1)实验数据量较小,缺乏说服力;(2)受僵尸粉影响严重;(3)无法结合用户给出的关键词;(4)算法效率较低。本文对上述微博影响力评价模型存在的问题进行了研究,主要工作如下:(1)改进新浪微博数据的抓取方式,扩大了实验数据量。新浪微博提供了API(应用程序编程接口)供开发者抓取数据,但限制了API的调用频率。通过使用多应用与多代理IP技术改进现有的基于微博API的数据抓取方式,使数据抓取量由每小时150次增加到每小时6000次。并抓取到了100万个微博用户,提高了微博影响力评价模型实验的数据量,保证了其准确性。(2)提出一种判别和排除微博僵尸粉的方法,降低僵尸粉对微博影响力评价的影响。针对微博用户量庞大的特点,详细分析了最新的微博僵尸粉与普通用户的不同特征,提出了一种基于模拟退火的BP神经网络算法SAVBP,并实现了一个基于SAVBP神经网络的僵尸粉分类系统。使用新浪微博数据对系统进行评估,结果显示该系统对微博僵尸粉判别准确率与判别召回率均有提高。(3)提出一种基于聚类算法的微博影响力评价模型。首先对数据进行预处理,排除数据中的微博僵尸粉,再通过微博用户粉丝与关注的链接关系将微博建立成一个复杂网络,并使用改进的Girvan-Newman算法对网络进行聚类,分解出其中的团簇结构,并提出针对各团簇的基于用户关键词的影响力评价方法CRank。使用新浪微博数据对模型进行评估,结果显示,该模型具有较好的收敛性,计算效率要优于传统基于PageRank算法的微博影响力评价模型。(4)设计并实现了一个基于聚类算法的微博影响力评价模型系统。针对微博影响力评价模型没有统一评价标准的问题,提出把用户满意度作为微博影响力评价模型的评价标准。与现有的基于PageRank算法和基于Hits算法的微博影响力评价模型相比,结果显示本文提出的基于聚类算法的微博影响力评价模型具有较高的系统实时性与用户满意度。随着微博的快速发展,微博影响力的评价将变得越来越重要,本文提出的微博影响力评价模型为微博的进一步扩展应用提供了一定的基础。