论文部分内容阅读
在各种社交媒体中,以微博为代表的新应用不断出现打破了传统的信息传递与沟通以及人际交往模式,社交网络成为人们获取信息和分享信息的重要平台。随着社交网络的发展,每天有大量的信息在网络上产生和传播,未经核实的信息的传播潜在着很大的问题,有碍社交网络环境的健康发展。为了保持社交网络的良性发展,树立正确舆论、分辨并遏制谣言传播显得尤为重要。对社交网络进行研究,在揭示社交网络信息传播规律、信息过滤、谣言预警及控制方面有着重要的实践意义。以往的社交网络研究很少对弱关系进行分析,但是弱关系极大地影响着信息的传播,在确定社交网络关系的基础上,社交网络研究才有充分的依据。对社交网络谣言进行排名研究,有助于区别活跃度高的谣言与非活跃的谣言,从而降低谣言检测的成本。而在谣言检测中,蚁群算法虽然能够提高谣言分类的准确性,但蚁群算法是全局最优算法,效率较低,结合随机森林进行特征选择,能弥补这一缺陷。因此,本文主要围绕社交网络关系分析、微博谣言排名、微博特征分析及谣言检测三方面进行深入研究。论文完成的主要工作包括:研究了新浪微博数据采集与预处理技术,针对数据挖掘相关研究对微博数据样本的要求,提出了数据爬取、数据预处理方案;针对社交网络中特定社交群体,对弱关系社交网络进行研究,给出了弱关系强化的条件;在社交网络关系研究的基础上,通过分析谣言与非谣言用户的贡献度、各因素对谣言排名的影响,在排名算法与加权算法的基础上,给出了微博谣言排名算法。在对微博数据进行初步分析后,针对特征选取、微博谣言检测准确率不高的问题,在用户、文本、传播三个方面做特征选取,结合群体智慧,给出基于蚁群与随机森林的混合特征选择算法,并将算法应用到新浪微博谣言数据分类中。针对算法的准确率及召回率进行对比分析,实验结果表明改进后的算法提高了谣言检测准确率。