基于深度学习的短文本情感分析

来源 :中国新通信 | 被引量 : 0次 | 上传用户:vecent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    近些年中国电影市场飞速发展,仅2021年春节档电影票房就破百亿,国内用户选择影片观影时会参考豆瓣电影评分,也会表发影评并打分,由于智能手机的普及,人们大多习惯在各类手机APP或者网站上发表评论,这类评论多为短文本,本文旨在通过对影评的情感分析,结合用户对电影的评分计算出一个更符合用户真实想法的电影评分。该评分可以供用户和影院参考,协助其做出观影决策和排片。相比传统CNN模型,胶囊网络在小型数据集上可以取得更好的效果,并且有更好的鲁棒性以及拟合特征能力。我们先用网络爬虫技术爬取豆瓣影评数据并进行预处理,然后将处理好的数据输入到ALBERT层进行序列化,再将ALBERT层输出的文本特征分别输入到Bi-GRU层和胶囊网络层获取句子全局特征和局部特征并进行特征融合,再经过全连接层进行线性降维,然后将全连接层的输出结果输入到Softmax层进行分类得到对应情感类别,最后结合电影的星级评分计算电影的综合评分。
  【关键字】    短文本    情感分析    Bi-GRU    胶囊网络
  引言:
  情感分析,也称为观点挖掘、意见挖掘、极性分类,本质上是一个情感分类问题,主要研究人们对实体的看法、态度和情感,是自然语言处理领域中的一个重要研究方向。传统的情感分析方法主要是基于机器学习,需要复杂的特征工程,且泛化能力较差,近年来崛起的深度学习方法很好的弥补了基于机器学习方法的缺陷,成为了情感分析的主流方法。
  主流的深度学习方法,大多基于CNN模型或者RNN模型,存在着诸多不足:CNN获取信息能力取决于卷积核窗口长度,捕获能力有限,且不能学习上下文信息;RNN容易出现梯度消失或者梯度爆炸现象。由于这些原因,胶囊网络(Capsule Network)、长短期记忆网络(LSTM)、门控循环单元(GRU)、双向长短期记忆网络(Bi-LSTM)等变体开始流行。本文提出一种基于深度学习的短文本情感分析方法。
  一、模型结构
  情感分析属于自然语言处理领域,本文提出的模型结构如图1所示,主要分为以下模块:
  1.文本预处理模块:通过网络爬虫技术爬取豆瓣影评T,进行清洗和预处理操作使文本结构化得到数据T1,预处理操作包括去特殊符号、去英文、去数字、去停用词和中文分词。
  2.词向量嵌入模块:使用预训练好的ALBERT模型对结构化数据进行序列化,得到文本对应的序列S。
  3.征提取模块:包括Bi-GRU层、胶囊网络层和特征融合层,其中Bi-GRU层提取文本的全局特征,将序列S分别输入前向GRU层和后向GRU层中进行训练得到向量表示和,将两者叠加得到向量F1;膠囊网络层用于提取文本的局部特征,将序列S输入到胶囊网络层,使用动态路由算法进行特征提取,得到特征向量F2;特征融合层,将特征向量F1和F2向量进行特征融合,得到新的特征向量F3。
  4.全连接层:用于将上一层输出F3全连接至本层的输出神经元,输出一个特征向量V。
  5.Softmax分类层:用于将全连接层输出的特征向量V进行归一化,得到文本对应每一类的概率矩阵M,M的最大值索引即文本对应的情感标签,包括好评,中评和差评,分别对应数值“5”,“3”和“1”。
  6.输出层:综合用户对影片的评分和文本对应的情感标签对影片进行评价,用户对影片的打分为X1,如果评分缺失设定X1为0,基于情感分析的影评评分为X2,影片的最终评分计算公式如下:
  二、算法介绍
  2.1 文本预处理
  2.1.1网络爬虫
  网络爬虫技术,也叫爬虫程序,是自动搜索并下载互联网资源的程序或脚本。通常可以分为四类:主题网络爬虫、通用网络爬虫、增量式爬虫和深层网络爬虫。本方法使用的主题爬虫能只抓取预定义主题相关的页面,避免了无效信息的干扰。
  网络爬虫可以用JAVA、PHP、Python等各种语言实现,由于Python拥有脚本语言中最丰富的类库,我们使用Python的Selenium库模拟主流浏览器的运行,实现模拟登陆、自动翻页,自动点击等交互操作。
  2.1.2去停用词
  文本中存在着大量与文章主题无关的字母、标点、助词等,如“你”、“了”、“的”等,进行预处理时将这些删除以免对文本分类结果造成影响。
  2.1.3中文分词
  词对于中文来说是表示语义的最小单元,和英文用空格隔开不同,词与词之间没有天然分隔,对于计算机理解较困难,分词尤为重要。我们选用的jieba分词工具,是一种免费开源的分词工具,支持精确模式、全模式和搜索引擎模式三种分词模式:精确模式, 试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
  2.2 ALBERT
  常用的Word2Vec模型只考虑了文本的局部信息,Pennington等为了克服其缺陷提出的Glove模型,虽然同时考虑了局部与整体信息,但本质上仍然是静态的词向量,舍弃了大量的位置信息。Devlin等人2018年提出的BERT(Bidirectional Encoder Representations from Transformers)是一种动态词嵌入技术,在NLP领域的11个方向大幅刷新了精度,但是其所需训练时间较长,会导致内存不足等问题。
  ALBERT(A Lite BERT)模型是基于BERT模型的一种轻量级预训练语言模型,其和BERT一样采用双向Transformer获取文本特征表示,但通过嵌入层参数因式分解和跨层参数共享大幅减少了模型参数,降低了训练时的内存开销并提升了训练速度。   2.3 Bi-GRU
  RNN(Recurrent Neural Network)容易出现梯度消失或者梯度爆炸现象,LSTM(Long Short-Term Memory)和Bi-GRU(Bidirectional Gated Recurrent Unit)通过引入門控机制缓解了这两个问题。GRU相较LSTM只有更新门zt和重置门rt两个门控单元,模型训练时间更短。
  本方法使用的Bi-GRU,是一种双向的基于门控的循环神经网络,由前向GRU和后向GRU组成,通过两个方向遍历文本,得到包含文本上下文的信息,解决了GRU模型只能包含上文信息的问题,同时速度相比其他序列模型有一定提升。
  2.4 胶囊网络
  2011年Hinton等首次提出胶囊网络的概念,其用向量胶囊代替卷积神经网络中的神经元、动态路由机制代替池化操作、Squash函数代替ReLU激活函数,在图像识别领域取得了很好的效果。
  近年来,人们开始尝试将胶囊网络用于自然语言处理领域,并逐步取得不错的效果,本方法中胶囊网络的动态路由算法可以动态学习神经网络层之间的关系并保留句子中出现概率较小的语义特征,保证特征信息的完整性,且其相比CNN有更好的鲁棒性以及拟合特征能力。
  三、结束语
  本文提出了一种基于深度学习的短文本情感分析方法,本方法使用ALBERT预训练的动态词向量代替传统的静态词向量,提升了词向量的表征能力,为之后的分类奠定了很好的基础,很大程度上提高了分类的准确性;本文使用Bi-GRU负责全局特征提取,相比常用的单层或者双层神经网络可以得到更好的效果;本文使用胶囊网络负责局部特征提取,保证特征信息的完整性,速度和鲁棒性相比传统方法有一定提高。
  参  考  文  献
  [1] Pawe? Cichosz. A Case Study in Text Mining of Discussion Forum Posts: Classification with Bag of Words and Global Vectors[J]. International Journal of Applied Mathematics and Computer Science,2018,28(4).
  [2] LAN Z,CHEN M,GOODMAN S,et al.ALBERT:a lite BERT for self-supervised learning of language representation.
  [3]冀文光. 基于Attention-Based Bi-GRU模型的文本分类方法研究[D].电子科技大学,2019.
  [4]薛炜明,侯霞,李宁.一种基于word2vec的文本分类方法[J].北京信息科技大学学报(自然科学版),2018,33(01):71-75.
其他文献
【摘要】 网络技术高速发展,放眼当今世界,计算机网络深度影响着人类生产生活的各个领域,从科学技术、军事发展领域到日常办公和居家上网冲浪,计算机网络的发展,将人类工作方式、思维方式都改变了。在网络如此发达的今天,人们开始担忧使用网络的一些隐患,这些安全隐患或许会影响计算机运行,或是甚至影响个人财产、公共安全,那么我们该如何提高计算机网络安全呢?  【关键词】 网络安全防范 计算机网络  一、
在互联网发达的时代,本文在时代特点下从飞行院校飞行专业实行准军事化管理的必要性入手,总结以前的成效,同时结合新时代互联网信息化的要素、日常管理实践等提出了互联网时
本文重点介绍了单片机、粉尘传感器、按键以及声光报警、LCD液晶显示屏等各个工作模块的特点和工作原理以及软件的设计.经测试研究表明PM2.5空气质量检测报警器可用作检测大
【摘要】 在企业信息化项目管理过程中,企业需要根据自身发展的实际情况,不断探索新的管理方法,引进先进的管理技术,做好风险评估,从根本上规避潜在的风险,为企业发展保驾护航,推动企业的发展壮大。因此,本文主要基于企业信息化进程当中的项目管理基本内容,然后基于风险评估的企业信息化项目管理方法进行分析,提出合理化的建议和对策。  【关键词】 风险评估 企业信息化项目 管理 方法  前言:  企业
【摘要】 本文将国内某5G设备的供应商设备作为研究对象进行分析,通过对其开展测试,获取相关参数数据,基于数据进行研究。同时结合理论分析,发现5GBBU竖装具备一定的可行性,能够在一定程度上控制基站能耗,改善设备的散热效能性能。  【关键词】 5G基站 BBU安装 散热能效  一、散热风道分析  分析下图1,可以得知该设备机房主要使用的是工业级精密空调制冷,制造的冷空气经由下方或前门流入机柜
人工机械运动传感器是一种机电转换装置,属于测试技术中的关键部件,作用是将原始测量的机械量作为传感器的输入量,通过信号采集传输形成另一个适合于变换的机械量后由机电变换部分转换为与之成比例的电量。运动传感信号应用智能识别和智能分析技术,使自动机械装置能更加智能的执行动作,降低动作损耗,实现精确的空间位移。
5G不仅给通信技术领域带来重大变革,还深刻影响着媒体行业.进入5G时代,新媒体行业迎来前所未有的挑战和机遇,相关产业链也日趋完善.本文主要围绕“5G与新媒体内涵概述”、“5
画面编辑效果的好坏不仅会对电视新闻节目的质量产生影响,同时也对吸引观众眼球有着重要的作用.在电视新闻报道过程中,应用合理的画面编辑技巧可以让观众可以身临其境感受道
高等教育体系的健康与可持续性受研究水平、教育质量等众多因素的影响,高等教育系统是公民的受教育的来源之一,对于国家经济发展等多方面都具有重要价值.因此建立一个可用于