基于分层注意力机制的微博谣言检测研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:greathuhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新浪微博可以让任何拥有互联网连接设备的用户实时分享他们的想法,并实时发布他们可能目睹的事情。新浪微博的多样性激发了人们表达观点的热情,这使得新浪微博越来越多地被用作收集信息的工具。虽然带来了极大的便利,但在新浪微博上可以分享的内容几乎没有限制,它的开放性和及时性导致谣言信息的快速生成和传播,而且谣言信息的传播是毁灭性的。因此,新浪微博平台的开放性为如何利用自然语言处理和数据挖掘技术进行谣言检测提供了契机。谣言检测是文本分类的一个子任务。本研究的目的是从海量的微博原文和其评论信息组成的事件级微博中挖掘重要特征,并利用深度学习模型对其进行检测。本文的主要工作如下:(1)针对以往研究所公开的微博数据集过于久远问题,本文从新浪微博官方的社区管理中心爬取并筛选了2019年1月份至2020年9月份的谣言事件信息,经筛选后,共计有1906个谣言事件微博信息。还从微博首页的头条板块出采集了非谣言事件,经筛选后,共计有2017个非谣言事件微博信息。最后,与公开数据集结合构建新的数据集用于实验。(2)针对以往谣言检测研究中人为划分事件时间段造成的信息丢失问题,提出了可变长度时间序列评论划分算法。该算法充分利用评论中的点赞及时间信息,将事件时间序列动态划分。在此算法基础之上提出了基于动态划分的分层注意力机制(A Hierarchical Attention Mechanism With Dynamic Division,HAD)模型来研究事件级微博的谣言检测问题。模型利用分层注意力机制同时从微博层面和时间段层面对微博事件进行关注,进而进行分类。并将模型与经典的基线模型进行识别效果的比较,验证了所提出模型的有效性。(3)针对单一模型语义缺失问题和关键特征选择问题,将动态卷积神经网络(Dynamic Convolutional Neural Network,DCNN)和HAD模型结合起来提出了新的模型。融合后的模型不仅利用注意力权重保留了有效信息,而且解决了关键文本信息丢失问题。
其他文献
近年来,随着互联网技术的飞速进步,极大地推进了当今社会的经济、文化和教育等领域的发展进程,但随着各类社会活动对计算机网络的依赖日益加剧,计算机网络成为黑客攻击的主要目标,网络犯罪有增无已。在这种情况下,各类网络安全技术相继出现,共同维护着现代网络的安全运行,入侵检测技术由于能够实现主动的网络安全防护措施,且具有实时地监控网络状态的特性,成为了网络安全领域的中热门的研究方向。Snort是一种基于误用
近年来,高校教学不再局限于讲课,转向多元化的课程形式发展。而为了让城轨系统教学实验更贴近生产真实情况,学校新建了一套对城轨线路进行模拟还原的动态模型平台。该平台包括2个主变电所、8个牵引混合所和上下行各8辆列车模型,共44块控制板,每块控制板上有近70个待观测的数据节点。由于控制板均封闭在设备柜和移动的列车中,无法使用实体仪器观测,因此需要开发一套可以提供多种测量功能的监测系统,为学生教学实验提供
网络控制系统是通过通信网络构成闭环的反馈控制系统。由于网络控制系统具有共享信息资源、节约系统布线成本、提高系统灵活性、易于系统扩展和维护等优点,网络控制系统得到快速发展和广泛应用,但同时网络控制系统的安全问题也显得越发突出。虚假数据注入攻击是欺骗攻击中的一种攻击类型,本文针对虚假数据注入攻击的检测及抵御问题进行了研究,主要工作内容如下:首先,针对反馈通道虚假数据注入攻击,分析了残差检验的局限性,介
2020年上半年我国境内约3.59万个网站被植入后门,数量较2019年上半年增长36.9%,可见,目前信息科技企业依旧面临着广泛的Webshell攻击。工业界对于Webshell的检测主要依靠安全设备告警,建设一体化安全纵深防御体系。学术上,对Webshell的检测研究主要包括文本内容、文本特征两种形式,主流算法有决策树、SVM、CNN、LSTM等。不论工业应用还是学术研究,检测方式上都是以内容检
随着智能手机和4G、5G网络的普及,人们的沟通方式已经实现从图文到视频的跨越,视频直播在这期间从电脑转移到移动互联网上,一时之间互联网直播软件大规模增长,并应用在各种不同的领域,比如休闲娱乐、游戏电竞、电商购物等。网络直播兴起的主要原因有网络信号的覆盖率越来越高和智能手机价格下降且功能齐全,这些因素促使直播变得越来越简单,只要使用手机的拍摄功能及直播软件,即可实现随时随地开播,相信随着5G网络时代
随着网络技术的发展,不断扩大的网络规模与不断提高的网络服务质量(Quality of Service,QoS)需求形成一对矛盾。同时,现有运行网际互连协议(Internet Protocol,IP)的网络因网络规模有限、路由性能存在瓶颈、不支持QoS保证等一系列难以解决的问题面临前所未有的挑战。向量网络作为一种新型网络结构,不仅解决了当前网络遇到的很多难题,而且实现代价极低,多路径路由问题就是其中
随着5G技术的推广和普及,人们的日常工作生活更加需要移动网络作为基础,对移动网络的性能要求越来越高。因此对移动网络流量进行预测,能够为网络异常监测和运维管理进而提升网络整体效能提供依据。同时5G用户数量在不断的增长,预测5G用户在接下来一段时间的数据量,能够为5G的网络运营商以及终端设备制造商制定生产运营策略提供数据依据。针对移动网络流量预测,本文首先分析移动网络流量的日常变化特点,基于网络流量的
随着用户隐私泄露和网络欺诈问题的出现,传统的检测机制已经不能阻挡愈演愈烈的攻击行为,需要新的技术手段辅助进行Web安全检测。作为沟通用户与网络数据的桥梁,浏览器广泛应用于用户与各种应用程序之间的交互,其中浏览器指纹包含着用户浏览器及设备等多种特征信息,其独特性可以极大地提高用户识别的准确率。但是浏览器指纹会随时间不断发生变动,基于静态指纹的研究方案难以满足动态指纹检测的要求。针对这一问题,本文研究
随着网络的迅猛发展,网络安全培训对校园安全至关重要。然而,传统教育方式集中培训难度大,培训形式不够灵活,以致于人力物力成本增加,培训效果不够理想。虽然在线网络教育这种新型教育方式正在普及,但是平台课程数量过多,用户很难从大量的课程中选择个人所需的课程。所以如何帮助用户选择合适的课程是课程培训系统中非常重要的一个功能。通过大量的调研,现有市场网络在线培训系统虽然都已实现了在线答题和系统组卷等功能,但
当前工厂内部网络呈现出工业协议种类多、协议间互不兼容的异构网络形态,导致工业设备之间信息难以互通。随着智能制造的发展,工厂内部网络呈现出IP化的发展趋势,因此,有必要在工业异构网络中研究统一的IP地址分配方式,以支持设备之间的无差别寻址通信。传统的DHCP方式不能根据设备在工业现场的位置信息为其分配固定的IP地址,不能满足工业场景需求。此外,地址分配过程涉及的子网和地址池等配置数据没有统一的数据建