【摘 要】
:
随着互联网技术的飞速发展,以微博和推特为代表的网络社交媒体平台成为群众获取信息、创作内容和分享观点的主要场所,同时平台便捷内容创作与高速信息传播的优势也成为谣言生成与传播的沃土。社交媒体中的谣言往往以制造噱头获取流量为目的,以杜撰的文字与篡改的图片吸引用户注意,通常带有情绪煽动性与恶意性,严重破坏网络空间秩序。特别是2020年疫情防控攻坚时刻,却有诸如“北京封城”、“钟南山院士感染”等谣言不断,误
论文部分内容阅读
随着互联网技术的飞速发展,以微博和推特为代表的网络社交媒体平台成为群众获取信息、创作内容和分享观点的主要场所,同时平台便捷内容创作与高速信息传播的优势也成为谣言生成与传播的沃土。社交媒体中的谣言往往以制造噱头获取流量为目的,以杜撰的文字与篡改的图片吸引用户注意,通常带有情绪煽动性与恶意性,严重破坏网络空间秩序。特别是2020年疫情防控攻坚时刻,却有诸如“北京封城”、“钟南山院士感染”等谣言不断,误导公众判断,严重影响社会稳定。面对社交媒体平台谣言泛滥这一焦点问题,研究出一套准确有效的谣言识别方案,在谣言发布早期依据内容与用户特征识别达到遏制谣言传播的目的,具有较大的社会意义与现实意义。当前的谣言检测大多基于文本特征、用户特征与传播途径进行,但在早期谣言检测中传播特征较少,基于单一模态信息难以有效甄别谣言,且谣言中虚假图像的影响力度越来越大,其直观的表达方式增加信息的可信度,将误导用户进一步传播,但已有研究中综合考虑图像信息的谣言检测模型较少,因此本文探究将多模态特征表达与特征融合模型应用于谣言检测领域具有一定的理论意义。本文立足于上述问题,在传统谣言检测研究和多模态融合研究的工作基础上,构建基于用户、文本、图像特征的早期和晚期多模态特征融合模型。首先,研究谣言中配图特点,针对图像篡改与图文不符两种情况选取离散余弦变换系数检测JPEG图像重压缩与Res Net提取图像的深层语义特征。随后使用Word2vec和Bert模型分别提取文本内容的词向量与句向量,使用one-hot与z-score提取用户特征。由于文本与图像内容往往有一定关联,因此需要将图文进行一致性匹配,本文利用注意力机制,联合词向量与深层语义特征,给予对谣言检测具有更多贡献的图像特征更大的权重。最后将提取到的文本特征、图像语义特征、图像频数特征与用户特征依据特征融合阶段的不同分别构建早期特征融合模型与晚期特征融合模型,得到谣言的最终检测结果。本文选取微博虚假新闻检测竞赛数据集进行模型验证,实验结果表明:早期特征融合模型相较于单一模态特征检测和晚期特征融合模型在F1值和准确率都有较高的提升,同时对比现有的两种多模态检测方法:att-RNN和EANN,本文提出的早期特征融合模型在各类模型评价指标都表现优良。此外,在早期特征融合模型中通过选取不同特征进行组合,验证了文本信息在谣言检测中的主导地位,同时图像特征可以有效提高谣言检测的准确率,验证了谣言检测任务考虑图像语义特征与篡改特征的必要性。本文的创新点主要有三个方面:第一,谣言检测中图像特征的丰富。谣言图像常是故意经过篡改,以激发用户情绪,因此本文将用于识别图像篡改任务中的离散余弦变换技术作为图像的频数特征,丰富了谣言检测任务中的图像特征选取。并验证了该特征对检测准确率的提升。第二,特征融合方法的创新。使用预训练模型提取文本与图像的语义信息,同时利用注意力机制结合文本词向量赋予图像特征不同的权重,将图像与词语进行一致性匹配有助于判断信息真实性。第三,融合方法的探索。本文依据特征融合模型层次的不同分别构建早期特征融合模型与晚期特征融合模型,并使用神经网络算法进行分类检测,进而判断消息是否为谣言,为多模态特征融合在谣言检测领域的应用提供了经验。
其他文献
追求幸福是人的天性,提升居民幸福感也是国家的重要目标。本文综合考虑宏观和微观因素构建影响居民幸福感的分析指标,在此基础上建模分析,挖掘宏观环境和微观环境中影响居民幸福感的主要因素。不仅可以精准定位低幸福人群,对其进行精准扶持,而且可以基于居民需求对国家的产业与经济重新布局,进而提升居民的满意度和幸福感。围绕居民的幸福感情况,本文开展了以下四个方面的研究:1.综合宏观和微观两方面因素构建分析指标。选
随着文化和信息科技、数字化等现代技术相结合催生出的新兴文化产业的迅速崛起,文化产业呈现出产业发展的新优势。2020年,中共中央明确提出实施文化产业数字化战略,以促进文化产业与相关产业融合作为文化产业未来发展的重点。传统的文化产业不足以适应目前经济社会中人们的精神文化需求,只有新兴文化产业才能推进我国由制造大国向创造大国的转变,我国新兴文化产业发展方兴未艾,前景十分广阔。推进新兴文化产业与相关产业的
不规律的作息习惯和不健康的饮食方式,导致心血管疾病跃居威胁人类健康常见病症的榜首。而从心脏核磁共振成像中精确分割左心室内外膜,是临床上定量分析的必要前提,是进一步诊治心血管疾病的重要步骤。此外带标记线的核磁共振(tagged Magnetic Resonance,tMR)成像还可用于心脏运动追踪。这对及时发现病症并提供针对性治疗有重要现实意义。由于心脏结构的复杂性导致其精确分割仍是一项极具挑战性的
近年来,在聚集信息、资讯发布和舆论传播的过程中,新闻媒体发挥着重要的媒介作用,对资本市场的影响日渐突显。一方面,作为信息供给者,媒体对公司、行业的信息挖掘,给市场参与者带来决策参考和信息补给,另一方面,媒体的商业价值逐渐被挖掘,由媒体商业价值驱使的新闻报道会对信息进行选择性取舍,并在标题和正文中使用引人注目的语言表达,通过其构建的议题框架传递其情绪,影响市场参与者对事件的认知和观点态度,从而进一步
股票市场投资是众所周知的“激进型”投资方式,区别于银行存款、国家债券等传统金融投资方式的稳健,股票市场投资往往存在较高的风险,但对于广大投资者的逐利心理而言,这种门槛低、收益高、简单且直接的投资方式正投其所好,股票市场投资成为了近年来最受大众青睐的投资方式。因此如何更加精准的对股票市场进行预测,帮助专业投资知识匮乏的投资者们防范风险、获取有效信息、获得利益成为了有实际意义的研究课题。互联网时代的到
在大数据时代,因果推断的研究在近二十余年来得到了快速的发展,并逐渐运用于医疗、金融、互联网和社会研究等领域。在观测性研究中运用倾向得分对于条件平均处理效应进行估计一直是因果推断领域的热点,但是基于倾向得分的条件平均处理效应估计常常由于倾向得分的模型设定偏误或者估计偏误而导致的协变量不平衡从而进一步影响估计结果。本文将协变量平衡运用在半参数核方法以及广义随机森林模型中用以提升相应的模型对于条件平均处
信息抽取是指从文本中抽取有效信息的系统,主要包括实体抽取、实体关系抽取和事件抽取等,信息抽取模型效果的好坏直接影响阅读理解、自动问答、机器翻译等下游自然语言处理任务的性能,因此信息抽取任务作为自然语言处理的一项关键任务逐渐成为研究热点。本文主要探究命名实体识别和事件检测两个基本任务。在神经网络广泛应用于自然语言处理任务之前,命名实体识别和事件检测任务多采用基于统计机器学习的方法,但此类方法严重依赖
全社会用电量是衡量地区经济发展一个重要指标,是“克强指数”重要组成部分。能否精准预测全社会用电量,是检验一个电力企业是否进入现代化的标准之一。精准的预测社会用电量模型不但可以为电力供应企业提供决策支持,还能减少由于过量发电带来的电力消耗。在对全社会用电量的影响因素进行分析时,根据选取影响社会用电量的因素,使用随机森林进行变量重要性排序。选取日平均气温、发电量、水泥产量、对外贸易出口额、房地产投资值
随着美国政治经济环境的不断变动,美国货币政策和贸易政策的不确定性也随之增大。由于美国和美元在全球经济中占据主导地位,美国货币政策和贸易政策的不确定性对全球货币和金融市场的溢出效应明显。因此,探究美国货币政策和贸易政策的不确定性对人民币汇率的影响,进而预测未来汇率的趋势非常重要。通过预测未来汇率,不仅能够预防汇率风险,也可以为制定国家货币政策提供参考。本文分析了美国货币政策和贸易政策不确定性对人民币
随着互联网的飞速发展和智能手机的普及,互联网用户规模日益扩大,其数量呈指数级增长,互联网企业也从电子商务、社交等单一行业开始跨行触及多个传统领域,在线教育便是其中之一。从2012年开始,国内的在线教育行业逐渐进入较快的黄金发展时期,在线教育平台也凭借其自身的便捷性、可重复性和针对性,越来越受到学生和家长的认可,导致各大平台用户数量的激增,也为行业带来了大量的用户行为数据。然而,在拥有如此大的用户基