Research on E-business Review Sentiment Analysis Algorithm Based on Deep Learning

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ttttt2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着大数据技术的迅速发展,越来越来的公司注重数据科学的研究和应用,利用大数据分析技术对公司的业务进行统计和分析。在大数据分析相关技术中,文本的情感分析是一个非常热门的研究方向。面向消费者的产品在电商平台有大量的评论,这些评论是用户对商品使用的直观反馈,包含了用户的情感倾向性。对这些评论数据进行高效、准确的情感分析可以对了解该产品的反馈情况提供很大的帮助。目前,文本情感分析方法主要分为3类:基于情感词典的方法、基于传统机器学习的方法以及基于深度学习的方法。基于情感词典的情感分析是最早使用,也是原理最简单的情感分析方法。该方法的准确性很大程度上依赖于情感词典的规模和完善性。对于新出现的词汇,情感词典无法及时进行收录,会使得情感分析的结果受到一定影响。基于机器学习的情感分析方法是继基于情感词典的情感分析方法之后第二种常用的方法,目前依然被广泛使用。相比于基于情感词典的方法,基于机器学习的方法最大的不同是该方法可以通过带标签的训练数据进行训练,让分类器去提取复杂文本中的情感特征,有效的解决了情感词典方法规则固定,对复杂句式判断能力差的缺点。但是,这些机器学习方法对特征工程的依赖程度过高。本论文所研究的是电商评论数据,如果使用传统机器学习的方法,对于不同类别的商品评论需要各级领域的专业人士进行特征提取,其开销较大。从2013年开始,深度学习开始被应用于自然语言处理的任务中,其中很多算法的性能相较于以往传统机器学习方法有着突破性的提高,使之迅速成为主流的研究方法。最近,大量学者将Attention机制运用在自然语言处理领域,Google公司在2018年提出的基于Attention机制的Bert模型刷新了该领域各种任务的记录。BERT不仅本身是一个优秀的模型,还可以和其他模型结合起来,在自然语言处理的很多领域达到更好的效果。在Bert模型被提出之前,大多数基于深度学习的情感分析工作都是使用Word2Vec来生成词向量,然后接上分类器进行文本的情感分类。虽然Word2Vec相较于传统机器学习方法可以更有效的提取文本的特征,但是该模型为静态编码,无法处理一词多义的问题,这一特性造成了该模型的局限性。在Bert模型被提出之后,情感分析相关工作中使用的模型逐步由Word2Vec替换为Bert。近两年来提出的使用Bert的模型相较于以往使用Word2Vec的模型大都有明显提升,但是在情感分析任务上,依然存在一定的提升空间。第一,在Bert提出之后,有一些研究针对Bert模型进行优化,提出了改进的模型如Roberta和Albert等,这些模型相较于Bert有更好的性能。第二,下游任务的神经网络的构建也对准确率有明显的影响,对这部分神经网络进行改进,同样可以提高模型的准确率。在构建下游神经网络的时候,需要通过实验来确定最佳的结构,本论文通过在电商数据集上进行对比实验,从而构建混合模型,使得该模型相较于近年来最常使用的模型有着更好的准确率。本论文提出的Albert-BiLSTM-ATT-RCNN混合模型在设计上为典型的文本分类任务的结构。首先要将文本转换成特征向量,然后通过全连接层进行分类。而将文本转换成特征向量这一步为混合模型的核心。这一步首先要将文本中的每个词转换成词向量,这个过程中使用的模型的文本特征提取能力会对整个混合模型结果产生很大的影响,因此本论文提出的混合模型选取最新的Albert模型来替代Word2Vec模型。在构建下游神经网络的时候,要最大化该部分神经网络的特征提取能力。本混合模型的下游神经网络以BiLSTM模型为基础,融入了 RCNN层和Attention层进一步提取序列特征,使得混合模型达到最佳的分类效果。混合模型的RCNN层选取整个时序上的最大值来作为文本的特征表示向量,这种选取方式类似CNN模型的最大池化。选择该方式是因为在一个文本中一般只包含少量的重点词汇,这些词汇对文本的情感倾向往往有着决定性的影响,使用最大池化可以将这些重点词汇的特征表示突出捕捉,而平均池化则会稀释这些重点词汇的特征表示。混合模型的流程如下:首先,训练数据中的每一条评论文本首先会被转换成Albert指定的输人格式,经过Albert模型计算生成该文本的词向量编码,在这之后,该词向量编码会作为BiLSTM模型的输入,BiLSTM层会分别计算正向和逆向的上下文表示向量。之后的模型分为两个部分:第一部分为RCNN,该层会将评论数据中的每一个词的词向量和这个词的上下文表示向量拼接起来,作为卷积层的输入,再通过max-pooling层之后输出文本对应的特征向量;第二个部分为注意力机制加权处理,通过给定BiLSTM的每一个时间节点的输出一个权值,然后通过训练确定最优权值分配,最后加权求和得出特征向量。最后一层是将这两个特征向量拼接起来,经过一层全连接层,通过softmax函数得出对该文本情感极性的判断。在训练过程中会通过损失函数对预测结果的误差进行量化,然后在训练的过程中不断优化网络参数来减小该误差。训练的模型会被保存起来,在之后的评估阶段加载训练好的模型,使用该模型对测试集数据进行分类预测,以评价该模型的准确率。本论文在Albert-BiLSTM-ATT-RCNN混合模型的基础上,设计了一种表情符号处理方案,即评论文本使用预训练语言模型,表情符号通过随机初始化的方式进行特征学习。实施流程如下:首先将评论文本中包含的表情符号提取出来,将去掉表情符号和文本和表情符号分别储存。然后对表情符号的特征向量进行随机初始化,在fine-tune过程中学习它的特征。接着将Albert层输出的词向量编码与表情符号的特征向量进行拼接。最后将拼接后的向量作为BiLSTM层的输入,之后的步骤和无表情符号处理的混合模型一致。该方案可以在不改变原有混合模型结构的前提下增加对表情符号的训练。使用该方案可以更有效的对包含表情符号的评论文本进行情感分析。本文使用爬虫爬取的京东、天猫平台的商品评论数据作为数据集。爬虫爬取的原始评论数据在进行预处理和人工标注之后加入到数据集中。本论文提出的混合模型在该数据集上进行实验,首先通过不同超参数设置的对比实验确定混合模型超参数的设置,然后将混合模型与近年来最常使用的Word2Vec-SVM、Word2Vec-RCNN、Word2Vec-BiLSTM-ATT 以及组成混合模型的单一模型 Albert、Albert-RCNN、Albert-BiLSTM-ATT等模型在同—数据集上进行对比实验,实验数据表明,本混合模型具有最高的准确率,达到89.89%,相比于使用Word2vec的模型准确率提升超过5%;相比于只使用Albert单一模型,混合模型提升了 2.3%的准确率,验证了在Albert模型的下游任务中增添神经网络进一步提取特征可以得到更高的准确率。而相比于混合模型组成部分的Albert-RCNN和Albert-BiLSTM-ATT这两个模型,混合模型分别提升1.56%和1.43%的准确率,验证了同时使用RCNN层和Attention层可以得到进一步提升。之后是验证表情符号处理方案的实验。实验结果显示,表情符号参与训练可以提升1.9%的准确率,具有一定的有效性。由于Bert相关的预训练模型仅包含了对文字的处理,对于本论文研究的电商评论这种包含表情符号的网络文本,在原混合模型的基础上增加对表情符号处理可以在一定程度上提高情感分析的准确率。
其他文献
最近几十年以来,中国的迅速发展,各种基础设施的建设、通信技术的迅速推广得到了革命性的飞跃。网络和移动互联网的迅速崛起,各种技术带来的方便已经深入我们生活的每一个角落,人类社会生活的脚步已经进入了快速发展的信息时代。在信息时代,以人工智能为主题的技术在世界上掀起了一阵经久不息的热潮,随着“互联网+”国家战略的提出,给那些能够提供各种解决方案的技术带来了巨大的机遇。而文字识别技术,作为人工智能应用技术
水资源短缺、水源污染问题已成为越来越受关注的社会问题,污水的回用已被提上日程,但以往的研究发现污水中存在的以药物及个人护理用品(Pharmaceutical and Personal Care Products,PPCPs)为代表的微污染有机物(Micropollutants,MP)将对人体健康造成威胁,而传统的污水处理厂所采用的二级处理工艺无法将其有效去除。臭氧(O3)氧化能有效去除污水中的PP
作为与地球最近和最相似的行星,火星一直被人类所探索。在火星漫长的演化历史中,火星受到宇宙中各种物质或能量的影响,记录了火星地质和宇宙变化的历史。火星次表层地质结构及土壤特点的探测对于了解火星演化历史有着重要意义,同时也对火星水资源和矿物分布提供十分重要的信息,为未来的火星登陆和火星开发提供前提和保障。由于电磁波独特的穿透特性,星载雷达探测仪常被用于火星次表层的探测。然而单独的星载雷达探测仪在火星次
随着互联网和智能手机的快速发展,多模态数据(声音,图像和文字)越来越被广泛地使用在社交网络中,并且这一数量在不断地增长。传统社交网络一般是通过文字的形式来实现信息的传递,但随着技术的不断发展,越来越多的人使用视频和图片的方式来表达自己的情感和观点。例如,很多网友在微信朋友圈发布视频动态或者通过文字加配图的形式来分享自己的生活。而这些多模态数据往往所蕴含的情感是非常复杂和多元的,因此分析多模态数据所
转炉炼钢的冶炼过程十分复杂,其过高的温度和复杂的冶炼环境以及冶炼过程中需要加入各种辅料的量,冶炼期间钢水温度和成分的准确测量都是无法用常规过程控制的方法进行测量和控制,炼钢过程中氧气的加入量以及石灰的加入量是确保钢水终点成分以及终点温度的关键因素。本课题首先通过机理模型对转炉炼钢耗氧量以及石灰加入量进行计算,得到计算值与实际值之间的误差。然后通过对智能算法进行研究构建智能模型,完成对炼钢耗氧量以及
机器学习随着蓬勃发展和日益著名的中国游戏市场和电子竞技产业,电子竞技用户在中国的规模已逐年增长。在2019年,在中国电子竞技的用户数已经达到4.7亿,并预计在最近的几年里将达到5.5亿,电子竞技产业正在迅速发展。数据分析也在当下慢慢渗透进各个行业,电竞行业当然也不例外。对电子竞技的比赛进行预测的工作主要分为两个部分,一个是提取电子竞技游戏中的会对胜率造成影响的特征,另一个是对特征进行分析并将其带入
随着云计算、大数据等技术的高速发展,互联网中越来越多的各类应用使得数据规模呈现爆炸式增长,从而推动了推荐系统的发展。在工业界常见的推荐模型例如:Item-CF模型、User-CF模型、LR/FM模型尽管被广泛应用,但仍然许多值得改进和突破的地方:1)当数据评分信息非常稀少时,模型容易遇到数据稀疏问题和冷启动问题。2)传统推荐模型受到浅层结构的限制,无法获得用户和项目的深层次特征。3)传统推荐模型中
两广盐业在我国盐业史上占据着重要地位。两广盐区自古盛产海盐,行销粤桂全境及闽赣湘黔滇局部地区,合计七省范围之广。政府制定了严格的盐法制度管控海盐的产运销环节,以控制巨额的盐税收入。两广盐运古道记录着两广盐业历史,是两广盐业发展史的活化石。两广盐运古道是两广盐的运输线路,盐业发展的兴衰都一一记录在古道之上,盐商等盐业相关从业人员作为古道上的活动主体,将古道上不同地区的文化相互传播,可以说对沿线聚落与
情感在人们的沟通过程当中包含着重要的信息,不同情感状态对人的决策和感知的影响也是有差别的。近年来,随着人工智能科学的不断发展,赋予机器以情感智能从而实现人机和谐交互也是人工智能领域的研究热点。本文提出一种基于视觉信息和脑电信息融合的多模态情感识别研究,研究工作包含以下几个方面:(1)基于人脸表情图像的情感识别首先利用基于Haar特征的Adaboost算法对图像样本进行人脸检测和裁剪,去除人脸区域外
随着新能源汽车、便携式电子产品和通信设备的快速发展,传统的锂离子电池(LIBs)已经不能满足人们的广泛需求。因此,开发和研究具有环境相容性良好、能量密度高和倍率性能优良的锂离子电池成为了研究热点。硅由于具有理论容量大(4200 m Ah g-1)、放电电压低、成本低等优点成为目前最具前景的材料,然而其在循环过程中会出现严重的体积变化(大于300%)。为了改善这一问题,人们做了大量的努力,如设计多孔