基于多特征融合与TCBL-SATT突发公共卫生事件微博情感分析

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:lelouchX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术的飞速提升,为海量的网络信息平台的发展提供了可能。与此同时,人们接收和发布信息的门槛也大幅度变低了。新浪微博作为国内最热门的网络舆论平台之一,每天产生千万甚至上亿级别的由公众发表的信息。这些信息可能是民众的主观情感抒发,也可能是客观观念的分享。发生突发公共卫生事件时,人们对此的关注程度可使相关话题热度居高不下。对相关话题的微博文本进行情感分析并挖掘其中蕴含的公众情感有利于相关部门了解事件的舆情走向。现今社会进入大数据时代,一方面,基于情感词典的文本情感分析方法与当前研究内容已不甚相符;另一方面,基于传统机器学习的文本情感分析方法面对海量数据效率低下。自然语言处理领域就对已深度学习为基础的的文本情感分析方法投入了更多的关注目光。卷积神经网络(CNN)和循环神经网络(RNN)凭借各自的优势,不断优化,在该领域内慢慢成为主流方法。但是,目前通过CNN与RNN两种神经网络的深度学习方法,在对文本任务上进行处理时,它们各自的缺点依然无法避免。主要有两个:一是文本词量化的表示形式较单一;二是没有办法对文本语句中各个词语对分类结果的重要程度投入关注。为进一步挖掘突发公共卫生事件微博文本深层语义信息,克服传统方法对微博舆情事件情感分析缺乏深层次语义支持,且特征稀疏、上下文关系单薄的问题,本文提出了一种基于多特征融合和TCBL-SATT(TEXTCNN and BiLSTM with Self-Attention)的双通道微博文本情感分析模型。首先在特征向量嵌入层使用多特征融合向量WET(Word-Expression-Text),该向量是将融合特征词向量、表情特征向量与文本向量特征拼接得到。其中融合特征词向量是将词典特征与词性特征拼接而成,不仅关注了单一的文本信息,还考虑了重要的情感线索—表情符号所具有的强烈情感表达能力对于情感倾向判断的影响,从而避免了文字表述与表情符号的情感歧义问题,提高了微博情感分析效果;其次基于TEXTCNN与BiLSTM构建双通道层以提取微博文本局部特征和全局特征;接着通过构建自注意力机制层以提取微博文本重要语义特征;最后在融合层合并双通道输出结果,并在输出层采用softmax函数进行情感分类。新冠肺炎疫情是自互联网技术和社交媒体平台普及后,我国第一次本土发生的重大突发公共卫生事件,故本文的研究数据是通过自编爬虫爬取新冠肺炎疫情相关话题下的微博文本,经过数据预处理后得到42384条新冠肺炎疫情相关微博文本。研究方法是与其他模型进行进行对照实验,结果表明:(1)多特征融合向量作为嵌入层,其情感分析效果明显优于单一特征向量;这是因为多特征融合向量一方面可以充分地学习特征间的语义联系,另一方面还考虑了表情符号的情感因素;进而提升了模型效果。(2)基于TEXTCNN与BiLSTM的分析结果较CNN与LSTM,各项试验指标都提高了 1%左右,这说明随着深度学习模型的不断优化,情感分析效果也越来越好。(3)TCBL-SATT的拼接融合的分析结果,均优于TEXTCNN-SATT与BiLSTM-SATT效果,论证了拼接模型的优越性。这是因为双通道模型一方面结合了 TEXTCNN和BiLSTM提取局部特征和全局特征的各自优势,更全面地利用了微博文本信息;另一方面自注意力机制可以更好的保留文本的重要特征,进一步提高了模型分析效果。本文的主要创新点如下:(1)在以往的研究中,没有考虑表情符号已经成为近年来公众书写微博博文是表达感情的方式之一。本文将表情符号作为特征之一,生成多特征融合词向量。(2)用自注意力机制可以比传统的注意力机制获得更好的结果。(3)用较新的模型去完成研究,获得更好的分来结果的同时,这也是侧面论证了近年来深度学习的发展总之,从结果来看,本文提出的基于多特征融合和TCBL-SATT的双通道微博情感分析模型,能够有效解决短文本语义关系单薄、特征稀疏的问题,并能有效提高情感分类的准确性,从而第一时间感知公众对突发公共卫生事件和情感倾向。
其他文献
羟基酪醇是已知最强的抗氧化剂之一,凭借着其低毒性和高抗氧化能力,已经用于心血管疾病、乳腺癌、痛风等多种疾病的预防和治疗,是未来极具前景的药用物质,因此羟基酪醇高效安全的生产工艺也成为合成生物学研究的热点之一。目前,商业用途的羟基酪醇最常见的合成工艺依然是利用植物萃取和化学合成,但此方法有诸多缺点,如回收率低、强酸性条件、耗时久、不可持续等。在众多合成工艺中,利用多酶级联生物转化法催化酪氨酸制备羟基
学位
新冠疫情作为重大的公共卫生突发事件,在2020年的影响是巨大的,不仅对全球的经济造成了巨大的冲击,也对人们的心理健康造成了重大的影响。新冠疫情的发生极易引发社会的群体性恐慌,如果政府不加以积极引导舆情的方向,可能造成难以估量的后果。新浪微博作为中国最大的社交媒体平台,中国网民在上面广泛的发表个人的意见和看法。因此通过微博发布的文本信息研究中国网民的情感倾向,为政府更好的引导舆情的走向成为眼下的当务
学位
旅游产业是国民经济的重要产业,而受到新冠肺炎疫情的影响,旅游业发展受阻。要想在疫情后期助力经济复苏,大力发展旅游业是重要的举措,可以加快经济的复苏和发展。而旅游产业竞争力就是衡量地区旅游产业在环境因素等方面的优势转化为收益的一种能力。当下,数字经济蓬勃发展,科技投入也在不断增加,对GDP的影响也在逐年提升。而现有的研究多侧重于对数字经济发展、科技投入和旅游产业竞争力进行单独研究,没有直接对三者之间
学位
面对全球碳排放量激增,环境污染愈发严重、生态系统退化速度加快等问题,2020年“十四五”规划提出加快推动绿色低碳发展,支持绿色技术创新,推进清洁生产,推进重点行业和重要领域绿色化改造,推动能源清洁低碳安全高效利用的建议。这要求实体经济改变发展方式,提升增长质量,减少污染,推动国民经济实现高质量,绿色可持续发展。随着制造业产能提升,与生态环境保护的矛盾日益加重,制造业发展方式需由原来过度依赖能源要素
学位
疟疾是世界上最严重的蚊媒传染性疾病之一,当前全球每年仍有约40万人因疟疾死亡。致死性疟疾主要包括重症疟贫血和脑型疟。临床上80%的疟疾死亡病例都来源于恶性疟原虫感染引起的脑型疟。然而,对于重症疟疾和脑型疟发生相关的疟原虫基因及其致病机制目前仍知之甚少。伯氏疟原虫ANKA虫株是重要的实验性脑型疟模型。该虫株感染C57BL/6小鼠后会产生类似人脑型疟的神经病理学症状,小鼠通常在感染后第6-8天死亡。而
学位
目的:调查满洲里口岸出入境人员传染病流行现状,为开展满洲里口岸传染病监测工作提供科学依据。调查满洲里口岸地区鼠类及其携带蚤类情况,为开展鼠类监测工作提供科学依据。口岸传染病监测工作可以有效防止传染病的扩散,保障公共卫生安全。方法:2015-2020年,对满洲里口岸13774名出入境人员的乙型肝炎、艾滋病、丙型肝炎、肺结核、梅毒5项传染病监测数据进行流行病学描述,使用χ2检验进行统计分析。2008-
学位
消费者物价指数(Consumer Price Index,简称为CPI)又叫居民消费价格指数,它在编制中,计算了中国城镇居民和农村居民日常消费中的食物、衣着、住房、生活品与服务、交通与通讯、教育和文娱、医药以及其他的生活必需品和服务项目共八个大类别、二百六十二个基本小类的价格,体现了我国城乡居民家庭中所购买的消费品与服务价格变化情况的经济指数,它是一种商品或一种服务项目的价格在一段特定的时间内随着
学位
红树林湿地作为最高产的生态系统之一,富含有机质和养分。微生物作为红树林物质循环的主要驱动者,在红树林沉积物的生物地球化学循环过程中发挥着重要作用。有研究报道厌氧氨氧化(Anaerobic ammonium oxidation,Anammox)和亚硝酸盐依赖的厌氧甲烷氧化(Nitrite-dependent anaerobic methane oxidation,N-DAMO)微生物可共存于红树林这
学位
中国是海洋大国,拥有丰富的海洋资源。在海洋资源开发的过程中,海洋工程活动如船运、海底隧道、海上桥梁及海上风电场建设等将产生大量的人为水下噪声。水下噪声引起的水下声环境场变化会对鱼群生命活动和生命健康产生重大影响。研究水下噪声对鱼群影响时,多是通过人眼观察并记录鱼群在声刺激下受惊跳出水面等较明显的异常行为,未能量化分析噪声干扰对鱼群的影响。对于运动轨迹、速度变化等不明显的受水下噪声影响所产生的异常行
学位
在传统生态学中,个体大小一直是研究者关注的重点,影响着物种在食物链中的位置及生物体间的相互作用关系,是人们理解和预测群落结构的重要工具。但在微生物生态学领域,微生物的肉眼不可见性和难培养性,使人们通常难以将微生物的大小信息纳入相关的微生物生态学研究。近些年来,高通量测序技术的发展使人们可以大量的从DNA层面获取群落中的基因丰度信息,这也促使许多研究者将环境中微生物的基因丰度作为其阐释群落结构及变化
学位