【摘 要】
:
社交网络和微博网站的迅猛发展,将世界各地的人们紧密的联系在一起。现有的一些社交软件,如微博、推特和脸书等平台给人们提供了自由表达观点的机会。但是由于其服务的用户来自不同文化背景,且在非面对面的沟通中,人们之间的沟通变得更加直接,导致软件中滋生出大量的仇恨和攻击性言论,对他人的身心均造成伤害,造成网络环境的污染。由于每日的数据量呈指数级增长,依靠人工处理这些仇恨和攻击性言论已经有心无力,因此迫切的需
论文部分内容阅读
社交网络和微博网站的迅猛发展,将世界各地的人们紧密的联系在一起。现有的一些社交软件,如微博、推特和脸书等平台给人们提供了自由表达观点的机会。但是由于其服务的用户来自不同文化背景,且在非面对面的沟通中,人们之间的沟通变得更加直接,导致软件中滋生出大量的仇恨和攻击性言论,对他人的身心均造成伤害,造成网络环境的污染。由于每日的数据量呈指数级增长,依靠人工处理这些仇恨和攻击性言论已经有心无力,因此迫切的需要能够自动识别仇恨和攻击性言论的机制,自动识别互联网中的仇恨和攻击性言论刻不容缓。目前针对仇恨和攻击性言论识别的任务主要通过仇恨词典进行识别,需要对词典进行及时更新。仇恨词典的频繁维护需要大量的人力物力,因此创建高效的分类算法是非常有必要的。由于目前的社交软件中均存在字符限制,因此大多数的文本都是以短文本的方式存在。而短文本数据存在特征稀疏性问题,在进行文本分类时,难以提取到有用的特征。同时在文本中普遍存在一词多义问题,诸多问题给仇恨和攻击性言论识别问题带来了困难。针对以上问题,本文提出了基于主题记忆和注意力机制的仇恨和攻击性言论识别方法,其中主要包含两个模型,分别为:面向仇恨和攻击性言论的异构信息模型HI-HOL(Heterogeneous Information model for Hate speech and Offensive Language detection,简称HGAT-HOL)和面向仇恨和攻击性言论的主题记忆模型TM-HOL(Topic Memory model for detection of Hate speech and Offensive Language,简称TM-HOL)。这两个模型中的主要贡献如下:(1)用于仇恨和攻击性言论识别的异构信息网络(Heterogeneous Information Network for Hate speech and Offensive Language detection,简称HIN-HOL):提出面向仇恨和攻击性言论识别的异构信息网络模型,用于捕获短文本、主题词和实体之间的关系,达到丰富短文本特征的目的。同时通过计算实体词和主题词之间的相似度,解决文本中存在的一词多义问题。(2)用于仇恨和攻击性言论识别的神经主题模型(Neural Topic Model for Hate speech and Offensive Language detection,简称NTM-HOL):提出NTM-HOL神经主题模型,该模型由编码器和解码器组成,用于生成潜在的主题,以丰富短文本特征。NTM-HOL的神经元能够实现向零均值和单位方差收敛,避免了重要信息的丢失问题。(3)用于仇恨和攻击性言论识别的主题记忆机制(Topic Memory Mechanism for Hate speech and Offensive Language detection,简称TMM-HOL):提出TMM-HOL主题记忆机制,由两个记忆内存矩阵和一个仇恨特征矩阵构成。两个记忆矩阵分别对应主题词和文本,利用改进计算层与仇恨特征矩阵学习语法特征。该机制可以使句子和特征更好地融合,解决整体特性丢失问题。为评估模型性能,本文在三个数据集上进行多组对比实验。实验结果表明,提取主题词和实体词可以有效地解决短文本特征稀疏问题。HI-HOL模型的Weighted-F1、准确率、宏平均查准率和宏平均召回率分别达到0.8998、0.8954、0.8263和0.6416。TM-HOL模型的最优Weighted-F1、准确率、宏平均查准率和宏平均召回率分别达到0.9042、0.9036、0.7718和0.7597。这些实验结果表明本文设计的模型能够精准的识别出仇恨和攻击性言论。
其他文献
开放共享已经成为大数据时代科研数据服务的发展趋势。国内外现有药学相关共享数据服务主要采用关键词字符串匹配方式检索,检索结果只是依据字符串编码相近或相似,无法从语义信息、分子结构特征等角度提供相似或相近检索,无法提供包含更深层次信息的搜索结果。从语义信息、分子结构特征等多维度研究挖掘数据之间的深层次联系,提供多维度数据检索服务,更有助于提升检索结果的准确度、深度和广度。论文主要从文本语义相似、分子结
图像分割是根据有关特征对图像的不同区域进行划分,精确的分割对图像语义分析具有重要的意义。鉴于图像分割和基于划分的聚类方法所具有的共性,以及图像分割中实际存在的区域边界模糊化的问题,模糊聚类方法目前已成为实现图像分割的一类有效方法。但传统的模糊聚类方法由于只考虑了图像的像素强度对分割结果的影响,比较容易受到噪声影响,从而造成分割结果的不准确。引导滤波(Guided Filter,GF)方法由于可以有
引文网络是通过论文之间的引用和被引用关系构成的复杂网络,描述研究者的成果、科学领域的发展和学科间的关系。论文间的引用关系,揭示相近领域下相关的研究内容。引文网络包含多个领域的研究成果,作为学术研究中重要的知识宝库和科学研究的重要介质。引文网络中引用论文与被引用论文的关系体现内容的相关性和知识的传递,引用关系在时间上具有单向性。由于论文引用关系是单向的、稀疏的,如何完善现有论文用网络变得至关重要。近
“日盲”紫外真空探测技术一直在军事领域与民生领域发挥着重要的作用,包括导弹告警、紫外通信、火灾检测和电晕检测等。为了进一步提高“日盲”紫外真空探测器件的性能,β-Ga2O3作为新兴的第四代超宽禁带半导体,近年来不断被研究者们进行更加深入的研究。β-Ga2O3具有4.4~4.9e V的宽禁带,高达~8MV/cm的高击穿电场强度,另外具有稳定的化学性质,这些优势使其在光电器件和高频高功率电子器件中广泛
随着互联网、大数据等技术的飞速发展,人们越来越多地在网络平台上发表自己的观点和意见,这些观点和意见是以文本信息为数据载体的。因此,研究这些文本信息的情感倾向,有着极高的商业价值。文本情感分析就是对含有情感色彩的主观性文本进行分析,并挖掘出其蕴含的情感倾向的过程。起初,研究学者使用基于情感词典与规则的研究方法以及基于传统机器学习的研究方法来完成文本情感分析任务,尽管这些方法取得了良好的效果,但这些方
作为当代移动通信发展的重要组成部分,多载波调制技术对提高通信系统的传输速率、频带利用率和抗多径干扰能力发挥着不可忽视的作用。与传统的多载波调制技术相比,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统的频谱利用能力更加出色,并且OFDM系统可以有效地抵抗多径效应带来的码间干扰和信道间干扰问题。OFDM系统虽然与传统的多载波调制技术相
网上购物的虚拟性特征加剧了信息不对称和“柠檬市场”问题,在线声誉机制的建立对促进良好信任关系建立、提高市场效率,营造有序在线市场竞争环境有重要意义,是营销、服务和消费者行为领域重要研究部分。目前多数学者对在线声誉的研究主要集中在在线企业声誉和在线零售商声誉上,采用数据挖掘方法对商品声誉进行研究时大都关注在线评论效价单一维度或在线评论文本总体粗粒度情感倾向评估,对商品由一系列属性组成的关注不够,消费
2019年12月以来,2019新型冠状肺炎在全世界的大范围传播造成了严重的传染病扩散危机,导致全世界人民面临严重的健康危机。这种传染病具有传染性高、变异性强等特点,现在已经在超过200个国家肆虐。在疫情的高风险地区,新冠肺炎患者的检测十分受阻,这主要是由于医疗设施较少以及检测试剂的短缺。通过CT图像来检测早期的新冠肺炎是现在流行的一种方法,也是当下研究的热点。由于新冠肺炎的CT表现有自己的特点,其
自媒体时代,每个网民都可以通过网络等途径向外发布事实和新闻。为了博取公众的眼球,假新闻事件层出不穷,不仅会误导不明真相的读者,而且会造成恶劣的社会影响。虚拟社交网络空间不仅成为传播虚假信息、恐怖思想和网络谣言等网络违法行为的中心,还成为某些政治和特殊利益集团进行恶意社会操纵行为的渠道和工具。处在大数据时代,仅靠人力是不可能有效遏制假新闻的泛滥,因此亟需有效的智能检测方式来帮助人们识别假新闻。当前对
随着人工智能的发展,计算机视觉技术被广泛应用到各行各业。而目标的精确定位作为其中一个基础性的工作,其精度和效率的高低对于整个领域发展起着举足轻重的作用。在二维和三维场景中,目标的精确定位主要涉及两个关键性的任务,即图像目标分割和图像目标测距。其中图像目标分割主要关注于二维场景中的精确定位,而图像目标测距则是三维场景定位的核心手段,针对这两个基础性任务进行性能提升将极大促进目标精确定位的进步。基于此