【摘 要】
:
随着社会经济的迅速发展和互联网的普及,地域欺凌言论大量出现,给人们的正常生活带来严重的影响。如何对地域欺凌文本进行高效地处理和识别,成为互联网信息管理面临的一大挑战。目前,深度学习技术在场景分类、图像分割和自动问答系统等方面取得了巨大成就,也为地域欺凌文本的准确识别和分类提供了解决方法。相比于其他语言,中国汉字丰富多彩,包含大量的上下文语义信息,字符和单词在不同语境下常会出现一词多义、歧义等现象,
论文部分内容阅读
随着社会经济的迅速发展和互联网的普及,地域欺凌言论大量出现,给人们的正常生活带来严重的影响。如何对地域欺凌文本进行高效地处理和识别,成为互联网信息管理面临的一大挑战。目前,深度学习技术在场景分类、图像分割和自动问答系统等方面取得了巨大成就,也为地域欺凌文本的准确识别和分类提供了解决方法。相比于其他语言,中国汉字丰富多彩,包含大量的上下文语义信息,字符和单词在不同语境下常会出现一词多义、歧义等现象,使人们理解中文文本出现偏差或误解。传统的机器学习和单一结构的神经网络在捕获地域欺凌文本的关键信息时,会忽略大量的细节信息及上下文语义信息。因此,针对上述问题,本文以特征提取和文本分类算法的相关理论为基础,从中文字符、单词和句子等多个层次对文本进行表示,实现地域欺凌文本的准确识别和分类。具体工作如下:(1)针对目前国内没有公开的地域欺凌语料库的问题,本文采用爬虫技术爬取微博、贴吧和知乎等社交平台的地域欺凌言论,构建地域欺凌语料库,并对语料库进行标注,为进一步对地域欺凌文本进行研究和分析奠定基础。(2)为提高地域欺凌文本中上下文语境的利用效率,提出一种分层注意力双向独立循环神经网络的地域欺凌文本识别算法(HABInd RNN)。首先,为了从不同层次反应地域欺凌文本的关键信息,提取词向量和句子向量特征。其次,利用分层注意力网络(Hierarchical Attention Network,HAN)捕获文本的内部结构信息。最后,为避免文本中层次结构信息丢失,解决梯度消失和梯度爆炸等问题,引入双向独立循环神经网络(Bidirectional Independent Recurrent Neural Network,BInd RNN)以增强该算法对文本的描述能力,实现信息流的整合。(3)针对传统特征(如词向量特征)、单一结构或传统串联式算法在描述地域欺凌文本时忽略文本的子空间语义信息等问题,提出一种双支并联神经网络的地域欺凌文本识别算法(MS-Caps Net-MLCN)。首先,提取字符特征、汉字的拼音和音调特征、词向量和句子向量特征并融合。其次,构建并联神经网络,其中一支为多头自注意力机制引导的胶囊网络(Multi-Head Self-Attention Mechanism Capsule Network,MS-Caps Net),另一支为多头自注意力机制引导的多尺度长短期记忆卷积神经网络(Multi-Head Self-Attention Mechanism Multi-scale Long Short-Term Memory Convolutional Neural Network,MS-MLCN)。利用多头自注意力机制对融合后的特征进行权重分配,利用胶囊网络对高权重的关键特征进一步挖掘并生成向量标签,并通过多尺度长短期记忆卷积神经网络进一步捕获丰富的上下文和子空间语义信息,两分支形成信息互补。最后,使用Soft Max分类器实现地域欺凌文本的准确识别。
其他文献
碳纤维增强复合材料(Carbon Fiber Reinforced Polymer,即CFRP)拥有轻质高强、耐腐蚀及抗疲劳等优势,利用胶粘剂将CFRP外贴加固受损钢结构能够有效地提高原结构的承载能力和服役寿命。CFRP-钢粘结界面为加固结构的薄弱点、也是加固设计的关键点,而在过载损伤和湿热环境等作用下粘结性能的退化规律目前尚不清楚。针对这一问题,本文进行了CFRP-钢单剪拉伸试验以及界面微观试验
轴承工业在我国市场经济建设中一度发挥着重要的作用,我国现有轴承企业近万家,但是产业的集中程度较低且整体发展凌乱无序。J公司创立于1996年,作为一家轴承制造企业,其经营规模逐渐扩大,业务范围不断拓展延伸;表现在资产总额和利润水平上也是持续增长。然而,由于激烈的市场竞争,J公司迅速发展的同时所面临的财务风险也逐渐增加,由此J公司不严格的风险管控以及不完善的风险防范体系带来的问题也日益凸显,为公司的持
目的:T(8;21)易位是AML-M2型急性髓系白血病相关的一种特异性染色体重排,21号染色体q22上的AML1基因和8号染色体q22上的ETO基因发生重排形成AML1-ETO融合基因,转录翻译成AML1-E
目的:研究川芎嗪(TMP)对H22肝癌小鼠血管生成的影响以及血管生成相关蛋白的表达变化。方法:H22肝癌小鼠随机分为四组:模型组(生理盐水)、阿霉素对照组(DOX 2mg·kg-1)、川芎嗪低、高剂量组(TMP 25,50mg·kg-1),腹腔注射给药。实验结束时采血,检测血清转氨酶ALT、AST水平;摘取H22肝癌小鼠腋下瘤并称重,计算肿瘤抑瘤率;用HE染色观察H22肝癌小鼠肿瘤组织的病理形态学
随着城市建设的发展,城市绿化草坪的面积不断增加,草坪养护的工作量也日益增多,草坪养护过程中,修剪是一项量大且枯燥的工作。基于提升效率的需求,使得该工作亟需自动化程度高的智能割草机器人设备。图像语义分割是对图像场景中各类对象进行像素级的识别分割,是智能割草机器人研究中基础且关键的技术之一,可以准确地识别出环境中的障碍物,分辨出需要工作的区域。但是传统的图像语义分割算法存在体量大、运行速度慢的缺点,针
我国近年来经济的持续发展,使得居民的出行方式和之前相比显现出了明显的变化,目前乘坐轨道交通出行已成为当今人们出行的主要方式之一。由于轨道交通在行驶过程中必然会产生相应的振动影响,在运行过程中对周围环境所产生的振动问题逐渐成为不可忽视的安全问题,其会影响到地面重要建筑物的沉降、科学研究与生产生活中高精度仪器设备的使用等,所以对轨道交通所产生的振动研究具有一定的必要性与紧迫性。本文主要通过弹性动力学的
奥利弗·施莱纳(Olive Schreiner)所著的短篇小说《1899》(Eighteen Ninety-nine)中涵盖了大量不为我国读者所熟知的人名、地名和历史事件,这些文化信息对于目标语读者了解相关历史背景,把握原文关键信息起着至关重要的作用。鉴于目标语读者与原文读者所处的历史文化背景和地理位置存在较大差别,且原文中并没有这些信息的相关注释或说明,因此译者需采用适当的补偿手段来弥补小说中的
随着建筑业的发展与进步,现代建筑工程结构的复杂性对混凝土的工作性能、力学性能和耐久性能提出了更高的要求。偏高岭土作为水泥的替代物,在满足混凝土性能的要求外,符合了建筑和社会的可持续发展。本课题制备了偏高岭土掺量不同的一系列砂浆和混凝土,对其开展了相关试验,并基于膜厚度理论,研究了偏高岭土掺量和水膜厚度对砂浆和混凝土新拌性能及力学性能的综合影响。研究成果对推动流变学膜厚度理论的发展,以及掺偏高岭土的
随着计算机科学,电子信息、人工智能等的发展,许多危险或人工无法完成的任务都由机器人来代替实行,然而有些任务仍然是单个机器人无法满足,因此多机器人协同作业开始在复杂任务中频繁出现,用来代替无法完成或者无法快速完成任务的单个机器人。其中,机器人协同作业的一个重要研究方向便是多机器人的编队问题,目前多机器人编队问题,主要集中在控制的机器人类型,控制架构、控制算法和通信等几个方面。只有结合考虑这几个问题才
元龙寺区块是鄂尔多斯盆地内最大的一级构造单元—伊陕斜坡的一部分,位于伊陕东部斜坡的中南部位,由于构造作用较为简单,构造形态较为单一。通过结合油田相关资料,以及分析化