基于特征提取增强和评论双极论证的假新闻检测研究与应用

来源 :济南大学 | 被引量 : 0次 | 上传用户:wagegea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自媒体时代,每个网民都可以通过网络等途径向外发布事实和新闻。为了博取公众的眼球,假新闻事件层出不穷,不仅会误导不明真相的读者,而且会造成恶劣的社会影响。虚拟社交网络空间不仅成为传播虚假信息、恐怖思想和网络谣言等网络违法行为的中心,还成为某些政治和特殊利益集团进行恶意社会操纵行为的渠道和工具。处在大数据时代,仅靠人力是不可能有效遏制假新闻的泛滥,因此亟需有效的智能检测方式来帮助人们识别假新闻。当前对假新闻检测的研究主要集中在对文本特征的分析,以及基于信息可信度的分类方法上。当前的研究主要存在以下三个问题:首先,长文本特征表示容易因数据对齐而丢失边缘特征,保留的特征也难以保证对分类有效,使得模型难以捕获长距离依赖关系;其次,短文本存在语义稀疏及上下文关联信息缺失问题;最后,难以有效利用评论信息辅助假新闻检测,对评论立场的误判会影响检测效果。这些问题都会导致过拟合和欠拟合问题,为分类器的特征学习带来了挑战。在此背景下,本课题提出一种基于特征提取增强和评论双极论证的假新闻检测方法,用于自动检测假新闻。旨在为人们营造良好的网络环境,也为以后的假新闻检测研究提供参考价值。本文的主要贡献如下:(1)基于数据增强的长文本特征提取网络(Long Text Feature Extraction Network with Data Augmentation,简称LTFE):设计LTFE特征提取网络,提出一种长文本的特征提取方法,增强分类器对不平衡数据集的特征提取能力。提出一种面向微调阶段的二次遮蔽学习方法(Twice-Masked Language Modeling for Fine-tuning,简称TMLM-F),既利用注意力机制捕获了长距离依赖关系,也消除了编码器在预训练和微调阶段的学习偏差;提出一种保留边缘特征的数据对齐方法(Data Alignment that Preserves Edge Characteristics,简称DA-PEC),保留了长文本数据易被舍弃的边缘特征,同时也提高了特征学习的准确性。(2)结合注意力层的双通道卷积神经网络(Dual-channel Convolutional Neural Networks with Attention-pooling for Fake News Detection,简称DC-CNN):设计一种分类模型,解决了传统卷积神经网络池化层容易丢失局部和全局特征相关性的问题。提出一种结合最大池化层和注意力池化层的双通道池化层,最大池化层保留了模型对于局部特征的学习优势,注意力池化层提高了模型对于文本语义以及全局特征的学习能力。(3)基于评论双极论证框架的影响度聚合算法:设计一种评论信息聚合方法,通过提取评论立场中的有效信息辅助假新闻检测。提出一种重置评论立场的双极论证框架(Bipolar Argumentation Frameworks of Reset Comments Stance,简称BAFS-RCS),对评论与新闻之间的立场关系进行建模,并通过真假性分析调整框架结构;提出一种评论立场影响度聚合算法(Average Parameter Aggregation of Comments,简称APAC),通过聚合所有评论立场影响度来修正模型的分类误判,从而提高假新闻检测的准确率。综上所述,本文提出的方法不仅能够提高分类器对长文本和短文本的特征提取能力,同时也能够有效利用评论立场信息辅助假新闻检测,提高假新闻检测的准确率。
其他文献
有限责任公司的股权让与担保是让与担保在商事领域与股权相结合出现的新的担保形式,在实践中已经成为非典型担保的重要组成部分。我国中小微企业数量激增,但是在新冠肺炎疫情大流行的背景下,企业融资面临困境,现有的传统融资形式不足以满足企业的发展需要。股权让与担保这一新的担保形式在商事领域应运而生,凭借其特有的优势蓬勃发展。但是与让与担保的发展路径一致,股权让与担保在实践中产生,目前亦主要在实践中被广泛应用,
学位
随着智能终端设备的发展,以获取用户隐私信息和敏感数据为主要目标的恶意应用成为移动智能终端用户面临的主要威胁。移动恶意应用的检测方法主要分为基于静态分析、基于动态分析和基于网络行为的分析方法。基于静态分析的方法重点关注恶意应用的代码层面和可执行文件的分析,该方法无需运行应用,难以应对代码混淆技术。基于动态分析的方法针对应用程序运行过程中产生的事件和行为进行分析,此过程需要将恶意应用在虚拟设备或者真实
学位
开放共享已经成为大数据时代科研数据服务的发展趋势。国内外现有药学相关共享数据服务主要采用关键词字符串匹配方式检索,检索结果只是依据字符串编码相近或相似,无法从语义信息、分子结构特征等角度提供相似或相近检索,无法提供包含更深层次信息的搜索结果。从语义信息、分子结构特征等多维度研究挖掘数据之间的深层次联系,提供多维度数据检索服务,更有助于提升检索结果的准确度、深度和广度。论文主要从文本语义相似、分子结
学位
图像分割是根据有关特征对图像的不同区域进行划分,精确的分割对图像语义分析具有重要的意义。鉴于图像分割和基于划分的聚类方法所具有的共性,以及图像分割中实际存在的区域边界模糊化的问题,模糊聚类方法目前已成为实现图像分割的一类有效方法。但传统的模糊聚类方法由于只考虑了图像的像素强度对分割结果的影响,比较容易受到噪声影响,从而造成分割结果的不准确。引导滤波(Guided Filter,GF)方法由于可以有
学位
引文网络是通过论文之间的引用和被引用关系构成的复杂网络,描述研究者的成果、科学领域的发展和学科间的关系。论文间的引用关系,揭示相近领域下相关的研究内容。引文网络包含多个领域的研究成果,作为学术研究中重要的知识宝库和科学研究的重要介质。引文网络中引用论文与被引用论文的关系体现内容的相关性和知识的传递,引用关系在时间上具有单向性。由于论文引用关系是单向的、稀疏的,如何完善现有论文用网络变得至关重要。近
学位
“日盲”紫外真空探测技术一直在军事领域与民生领域发挥着重要的作用,包括导弹告警、紫外通信、火灾检测和电晕检测等。为了进一步提高“日盲”紫外真空探测器件的性能,β-Ga2O3作为新兴的第四代超宽禁带半导体,近年来不断被研究者们进行更加深入的研究。β-Ga2O3具有4.4~4.9e V的宽禁带,高达~8MV/cm的高击穿电场强度,另外具有稳定的化学性质,这些优势使其在光电器件和高频高功率电子器件中广泛
学位
随着互联网、大数据等技术的飞速发展,人们越来越多地在网络平台上发表自己的观点和意见,这些观点和意见是以文本信息为数据载体的。因此,研究这些文本信息的情感倾向,有着极高的商业价值。文本情感分析就是对含有情感色彩的主观性文本进行分析,并挖掘出其蕴含的情感倾向的过程。起初,研究学者使用基于情感词典与规则的研究方法以及基于传统机器学习的研究方法来完成文本情感分析任务,尽管这些方法取得了良好的效果,但这些方
学位
作为当代移动通信发展的重要组成部分,多载波调制技术对提高通信系统的传输速率、频带利用率和抗多径干扰能力发挥着不可忽视的作用。与传统的多载波调制技术相比,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统的频谱利用能力更加出色,并且OFDM系统可以有效地抵抗多径效应带来的码间干扰和信道间干扰问题。OFDM系统虽然与传统的多载波调制技术相
学位
网上购物的虚拟性特征加剧了信息不对称和“柠檬市场”问题,在线声誉机制的建立对促进良好信任关系建立、提高市场效率,营造有序在线市场竞争环境有重要意义,是营销、服务和消费者行为领域重要研究部分。目前多数学者对在线声誉的研究主要集中在在线企业声誉和在线零售商声誉上,采用数据挖掘方法对商品声誉进行研究时大都关注在线评论效价单一维度或在线评论文本总体粗粒度情感倾向评估,对商品由一系列属性组成的关注不够,消费
学位
2019年12月以来,2019新型冠状肺炎在全世界的大范围传播造成了严重的传染病扩散危机,导致全世界人民面临严重的健康危机。这种传染病具有传染性高、变异性强等特点,现在已经在超过200个国家肆虐。在疫情的高风险地区,新冠肺炎患者的检测十分受阻,这主要是由于医疗设施较少以及检测试剂的短缺。通过CT图像来检测早期的新冠肺炎是现在流行的一种方法,也是当下研究的热点。由于新冠肺炎的CT表现有自己的特点,其
学位