论文部分内容阅读
随着微博、Twitter等社交平台的飞速发展,用户可以方便的获取资讯、建立朋友圈并分享位置、心情等个人信息。社交网络的便捷性、开放性、实时性特点使其成为网络信息资源的重要汇聚地,其中包含具有一定价值的可用信息,也存在大量无实际意义的灌水或垃圾信息。微博水军就是利用网民因信息不对称所导致的信息真空来达到误导舆论走向、制造热门话题、发布恶意链接等目的,导致严重干扰网络正常秩序,造成公众财产损失,阻碍社会公平正义发展的后果。因此,微博水军识别对净化网络环境、保障网民的利益有着重要的意义,目前已成为网络水军研究的热点问题。 当前大多数水军识别方面研究均是以研究对象的主要特征具备独立同分布特性为基础,因此,本文针对新浪微博的水军识别问题提出一种应用耦合关系的改进算法,首先通过新浪微博 API接口获取用户相关原始数据来构建用户特征模型描述,其次利用计算耦合相似度方法度量用户特征的内耦合和间耦合关系,将其添加为分类器输入参与预测。测试实验结果表明耦合关系的应用使得度量指标均有一定的提升,微博水军识别的效果有所提高。 本文研究的主要内容包括: ①综述分析了经典微博水军识别方法的优缺点,并在此基础上构建了新浪微博用户特征模型,包括关注数与粉丝数之比、朋友数与关注数之比、账号等级、原创微博比例、含链接的微博比例、微博内容相似度、微博发送频率和用户耦合相似度; ②采用用户耦合相似度计算的方法度量用户特征的内耦合和间耦合关系,并将耦合关系应用到预测系统的分类器构建过程中; ③针对新浪微博用户的水军识别问题,通过数据集获取、数据预处理和特征提取,采用朴素贝叶斯、决策树和逻辑回归三种经典算法验证耦合关系的应用效果,并给出了各项度量指标的对比结果与分析。