论文部分内容阅读
近几年来,基于Web2.0技术的社交网络发展迅猛,社交网络的应用已深深扎根于人们的生活,成为人们日常生活不可或缺的沟通平台和信息来源。而微博作为一种兼具分享和交流功能的新型社交网络平台,自一出现便以摧枯拉朽之势扫荡互联网。微博社会网络中信息传播采用典型的推送和转发机制,而微博转发功能可以使用户快速分享对其有价值的、重要的微博,实现信息在社交媒体上快速扩散,影响网络舆情,所以如何有效预测用户的转发行为对理解舆情在微博平台上的传播方式、舆情管控都有着重要意义。 当前在转发预测研究领域,大多数都是对转发量的预测和对博主粉丝的转发行为的预测,但是信息接收者对指向性博主的转发行为预测的研究极少,所以本文主要基于信息接收者的角度,通过分析影响转发行为的特征因素,使用机器学习中的二分类算法实现预测。主要研究内容如下: 首先,依据实际问题通过构建网络爬虫的方式获取微博真实数据集,包括用户的交互关系信息、微博文本信息和转发情况等。为了获得关系较完备,整体结构较完整的有价值的数据,对初始数据进行转换与有效性过滤。考虑到僵尸粉的影响,本文通过设定用户活跃度阈值的方式去除僵尸粉。 然后,构建影响微博转发特征体系,考虑到用户的固有属性和微博信息属性,选取了用户固有特征、用户历史特征、操作特征、粉丝转发倾向性特征和待预测文本与粉丝兴趣相似度特征。鉴于计算粉丝转发倾向性和兴趣相似度时需要对文本相似度进行度量,本文提出一种基于现代汉语分类词典的文本相似度算法。 最后,为了更加准确的预测信息转发情况,分别基于支持向量机和基于逻辑回归建立二分类模型,通过实验结果对比选出最适合预测真实微博社交网络转发行为的分类算法,实验结果显示,基于支持向量机的分类模型性能上优于逻辑回归模型。通过构建对比实验,验证了本文提出预测模型的有效性,使用错分率作为衡量指标,分析本文提出的影响因素对预测模型效果的贡献性。