基于聚类算法的微博影响力评价模型研究与实现

被引量 : 0次 | 上传用户:zhuchunjiangqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为新网络时代的社交工具,以其使用的便利性与发布信息的实时性迅速风靡世界。微博影响力是用户实际社交影响力的体现,对微博影响力进行准确评价不仅可以帮助用户找到有价值的信息而且还能为微博的进一步扩展应用提供基础。但现有微博影响力评价模型普遍存在以下不足之处:(1)实验数据量较小,缺乏说服力;(2)受僵尸粉影响严重;(3)无法结合用户给出的关键词;(4)算法效率较低。本文对上述微博影响力评价模型存在的问题进行了研究,主要工作如下:(1)改进新浪微博数据的抓取方式,扩大了实验数据量。新浪微博提供了API(应用程序编程接口)供开发者抓取数据,但限制了API的调用频率。通过使用多应用与多代理IP技术改进现有的基于微博API的数据抓取方式,使数据抓取量由每小时150次增加到每小时6000次。并抓取到了100万个微博用户,提高了微博影响力评价模型实验的数据量,保证了其准确性。(2)提出一种判别和排除微博僵尸粉的方法,降低僵尸粉对微博影响力评价的影响。针对微博用户量庞大的特点,详细分析了最新的微博僵尸粉与普通用户的不同特征,提出了一种基于模拟退火的BP神经网络算法SAVBP,并实现了一个基于SAVBP神经网络的僵尸粉分类系统。使用新浪微博数据对系统进行评估,结果显示该系统对微博僵尸粉判别准确率与判别召回率均有提高。(3)提出一种基于聚类算法的微博影响力评价模型。首先对数据进行预处理,排除数据中的微博僵尸粉,再通过微博用户粉丝与关注的链接关系将微博建立成一个复杂网络,并使用改进的Girvan-Newman算法对网络进行聚类,分解出其中的团簇结构,并提出针对各团簇的基于用户关键词的影响力评价方法CRank。使用新浪微博数据对模型进行评估,结果显示,该模型具有较好的收敛性,计算效率要优于传统基于PageRank算法的微博影响力评价模型。(4)设计并实现了一个基于聚类算法的微博影响力评价模型系统。针对微博影响力评价模型没有统一评价标准的问题,提出把用户满意度作为微博影响力评价模型的评价标准。与现有的基于PageRank算法和基于Hits算法的微博影响力评价模型相比,结果显示本文提出的基于聚类算法的微博影响力评价模型具有较高的系统实时性与用户满意度。随着微博的快速发展,微博影响力的评价将变得越来越重要,本文提出的微博影响力评价模型为微博的进一步扩展应用提供了一定的基础。
其他文献
讯问笔录是刑事诉讼活动中的重要证据。讯问笔录质量的高低,直接关系到刑事案件的办理质量。笔录制作完整、准确,能够全面地反映讯问的全貌,尤其要注意体现讯问中采取的方法
由于函数概念的抽象性以及学生的思维水平处于很不成熟的阶段,初、高中学生在学习函数概念时,往往感到困难,用函数思想分析问题和解决问题就显得更困难。因此,我们有必要对中学教
早在19世纪,护理专业的创始人南丁格尔就提出护理既是科学也是艺术,近代的多数研究者们也认为护理专业的本质是对人类的关怀和照顾他人的品质与能力的专业人才,要达到这样的
副语言作为一种重要的非言语交流方式,在人类语言交际中起着极其重要的作用。它贯穿言语交际的整个过程,并通过重读、音调、停顿、延长语音等表意手段,发挥其强调、辅助、调
文章基于技术进步视角,构建了产业结构升级对城市化影响的理论模型,以理论模型推导结果作为基本假设,再构建技术进步、产业结构升级与城市化的实证模型,运用中国城市群数据进
广州市越来越多的非户籍少年儿童需要接受免费义务教育,而且新修订的义务教育法也规定,地方政府应当切实履行帮助他们接受免费义务教育的义务.在进行认真的数据计算之后,我们
《国家中长期教育改革和发展规划纲要(2010——2020)》中对我国教育的改革发展提出了新的要求,要求既要加强国际间的交流与合作,扩大教育开放力度,又要在借鉴国际先进教育理念和教
版画中的偶然性在版画创作过程中具有非常重要的作用。从版画历史发展的长河中不难看出,偶然性与现代艺术联系紧密,越来越受到艺术家们的青睐,成为艺术版画构成中不可或缺的元
随着纳米技术的快速发展,出现了多种应用于肿瘤诊断领域的纳米造影剂,尤其是纳米载体的应用使构建多功能多模态纳米探针(同一纳米平台整合多种造影剂)用于肿瘤精准诊断成为现实。CT和MR成像是临床疾病诊断中应用最为广泛的两种单模态成像模式,而综合两者的双模态CT/MR成像则可以成功克服单一成像的弊端,增强诊断信息的准确性和可靠性。纳米造影剂能否在病灶区有效成像,取决于纳米材料是否能克服在血液循环输送过程中
叙述了云南禄劝甲甸钛铁矿矿床的研究区地质概况,阐述了研究区辉绿辉长岩体风化后形成的风化壳型钛铁砂矿矿床地质特征、矿床成因、找矿标志等。通过分析研究认为,广泛分布于禄