社交网络中虚假微博的传播分析与检测

来源 :东南大学 | 被引量 : 0次 | 上传用户:nieyuhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能终端设备和移动互联网技术的发展,在线社交网络平台为人们分享和获取信息提供了更加便利和迅捷的渠道。但网络中的信息质量良莠不齐,各式各样的虚假信息被肆意传播,给人民生活和社会安定带来了极大的负面影响。由此,面向社交网络的虚假信息检测研究应运而生,旨在利用虚假信息扩散的种种迹象,实现及早检测社交媒体中隐藏的虚假信息。目前,已有的研究主要从信息扩散的整体过程着手,挖掘虚假信息传播上下文中潜在的异常性特征。大部分研究者倾向于利用社交媒体中微博之间的时间序列关系,将信息传播过程建模为序列结构,但此类研究大多仅仅考虑了微博的文本内容,难以适用于虚假信息发布者人为操控下的转发和评论助推情况,比如雇佣网络水军参与微博转发或删除不利评论等,因而无法有效实现虚假微博检测。此外,此类研究忽视了微博之间的直接语义交互关系,忽略了信息传播过程中的结构信息,最新研究已开始重视传播结构的重要性,大多采用递归神经网络对传播过程进行特征学习,但是由于递归神经网络结构的限制,目前的研究方法计算效率低,并且存在对长期依赖难以学习的问题。针对已有研究中存在的不足,本文将着眼于微博传播的演化过程,提出基于传播树的虚假微博检测模型。本文的具体工作如下:首先,基于Scrapy框架通过新浪微博平台获取了真实的包含虚假微博和正常微博的数据集。根据微博管理平台提供虚假微博公告,分别对虚假微博和正常微博进行数据获取,并针对微博原始语料中存在的缺陷,完成数据预处理工作,构建真实可靠的实验数据集Mis Infdect。通过分析数据集的相关分布特征,验证了数据集作为虚假微博检测研究的有效性。其次,提出了一种基于传播树的虚假微博动态演化特征分析方法,分别对传播树结构以及微博信息的时序关系提出了形式化表示方法。针对已有研究难以挖掘传播过程的深层结构特征,进而无法描述传播结构的时间演化规律问题,本研究从分析传播结构和演化时序角度出发,构造传播树结构序列,使用传播树转换和子树分解的方法挖掘传播树演化的细粒度结构特征,并在此基础上,提出了融合微博内容的时序关系和用户属性特征的Co-Attention机制。通过构造微博分类模型,与已有相关虚假微博检测模型进行实验对比,验证了本文基于微博动态演化过程,提出的动态传播结构特征和内容时序特征表示方法的有效性,表明了虚假微博传播结构的动态演化特性,以及传播内容与用户属性的内在关联性。接着,提出了基于交互关系上下文的虚假微博检测模型(Tree-Transformer,Tree-TF)。针对虚假信息的及早检测问题,从研究传播过程中交互关系的动态演化角度出发,将传播树的结构信息映射到Transformer模型的交互机制中,构造了一种Tree-Transformer框架,并设计Masked Multi-head Co-Attention机制,实现微博交互关系约束下的用户属性和微博内容的特征融合,在传播树结构中首次融合用户属性特征,提出了基于TreeTransformer的虚假微博检测模型。最后,本文基于Mis Infdect数据集以及公开数据集Rumdect,设计对比实验,验证了模型的有效性。与国际期刊Computer&Security2019和国际会议AAAI2020等最新研究结果相比,本文提出的Tree-TF模型,在两个数据集中均有较好的表现,在公开数据集Rumdect上分类准确率分别提升了1.9%和1.1%。根据实验结果,在微博发布初期,Tree-TF能够达到较高的分类准确率,实现了虚假微博的及时高效检测。论文最后设计和实现了面向社交网络的虚假微博检测系统。本文深入分析了虚假微博传播过程中的各种潜在特征,对信息传播领域的特征挖掘具有一定的应用价值,进而提出的及时有效的虚假微博检测模型,可以帮助相关的微博类平台完善虚假信息检测机制,实现虚假微博及时预警和防治。
其他文献
技术文本的翻译可以促进技术文档的标准化,为科技产品的开发和推广提供支持。该类型文本的翻译实用性强,对于翻译方法和技巧的探讨也有借鉴作用。本报告分析了笔者在翻译目的论指导下进行的IP摄像机片上系统规格书英译汉实践,旨在讨论笔者在翻译过程中遇到的问题,并探讨相应的解决方案,以期为今后同类文本的翻译提供一些参考。本报告共分为五章:第一章简要介绍了此次翻译实践的背景;第二章介绍了翻译目的论以及国内外对英语
Android是目前全球最受欢迎的移动操作系统。有越来越多的攻击者为了获取非法利益,将Android应用重新打包后发布到应用市场,给用户的隐私和安全带来了巨大威胁。因此在过去一段时间里有很多的学者都致力于研究Android重打包应用的检测。但过去大多数研究都集中在代码相似性检测上,这些算法无法检测混淆或加密后的应用。最近提出的基于UI特征的重打包检测算法具有抗加固性。一些基于动态获取UI特征的检测
随着无线通信技术的发展,无线网络的安全性越发受到人们的关注,尤其是对接入设备的身份认证是保障通信系统安全的重要组成部分,传统的基于加解密算法和安全协议算法的无线通信安全体系都是建立在数据链路层及其以上的层级,人们开始关注从更底层的角度——物理层考虑身份认证,因此通信设备的物理层特性其唯一性以及难以伪造的特点对于无线通信的认证安全具有着重大意义,值得去深入研究。本文的研究对象是GSM移动设备发送的G
随着云计算技术的不断发展与广泛应用,虚拟化技术也变得愈加重要。相比于传统虚拟化技术,基于容器的虚拟化技术更加轻量、灵活,对系统性能造成的影响也更小,因此受到越来越多用户和厂商的青睐。Docker技术是容器技术的一种,目前在容器市场中占据着主导地位,已成为容器技术的事实标准,因此Docker平台的安全防护具有重要的研究意义和实用价值。在Docker平台中,容器的低隔离性及镜像的构建和分发都可能引入新
现今社会生活对网络的依赖程度持续加深,在有意无意间,个人数据都在被服务平台收集并使用,这固然带来了极大的便利,但同时这些用户数据中包含着大量敏感的隐私信息,一旦泄露必将面临遭到非法使用的严重后果,因此保护数据安全和维护用户隐私是当今一项重要的研究议题。最初对数据安全的研究主要集中在匿名化公开内容、去除其中敏感信息上,而后随着对隐私理解的加深,一些研究者将目光转向了对用户检索公开信息过程中的检索目标
随着物联网技术的发展,在物联网系统中的视频流量将会呈指数增长趋势。视频中包含的人脸信息,也会随之大大增加。利用边缘设备识别视频中的人脸信息,逐渐成为科技界的发展趋势。由于边缘设备的资源有限,如何在资源受限的设备中完成人脸检测与识别,是一个具有重要理论意义与工程应用价值的研究方向。针对视频的相邻帧中存在冗余信息的问题,本文提出了一种基于d Hash算法与图像分块技术结合的双阈值关键帧提取算法。该算法
近年来,随着移动网络和传感器网络的大规模应用,无线通信有了飞速的发展,安全的无线通信也受到了广泛的关注。传统的保证通信机密性的方案,如利用密钥协商算法进行密钥分发,其安全性由计算复杂度决定,在实际无线网络环境中的应用往往会受到终端能力的限制。基于无线信道特征的密钥生成方案源于香农对完美保密通信理论的追求,利用了无线信道的不可预测性、随机性和地理空间位置唯一性,通过实时生成的对称随机密钥实现了无线通
效率是企业的生命,也是企业的竞争力之所在,为实现健康长远的发展,企业必须努力提高自身的经营效率。从现有研究来看,影响企业经营效率的因素是多方面的。但学者们主要从公司治理水平、公司财务特征以及技术创新等方面进行探讨,而对于企业所处的外部制度环境,特别是地区腐败这一重要外部因素在企业经营效率中的作用并没有给予足够的重视。改革开放以来,我国经济持续较快增长,但也存在着比较严重的腐败问题。腐败作为制度环境
网络流特征分布会随着网络环境的变化而动态变化,产生概念漂移问题,造成基于流特征的机器学习网络流分类模型准确率下降。依据固定周期更新分类模型不但耗时且浪费大量资源,因此及时准确地检测到概念漂移从而更新分类模型至关重要。当前主要通过分类准确率下降来检测概念漂移,然而统计分类准确率需要标记样本,花费许多时间和资源。检测到概念漂移时,若仅在检测到的漂移样本上重新训练分类模型会遗失之前的知识;若把所有时期的
人们通过移动设备在社交网络上传播实时信息,进而成为热点话题的发起者与传播者。热点事件在社交网络中传播与扩散,产生热点事件相关的舆情,进而影响我们的现实生活,所以对社交网络中舆情进行分析有着重要意义。公众情绪信息是舆情的重要组成部分,当前的舆情分析多是站在话题演化的角度,忽略了舆情中“情绪”的信息,本文将从“情绪”的角度出发,针对用户发布的关于热点事件的文本内容,通过文本情感多标签分类的方式,细粒度