论文部分内容阅读
近些年来,随着大数据技术的迅速发展,越来越来的公司注重数据科学的研究和应用,利用大数据分析技术对公司的业务进行统计和分析。在大数据分析相关技术中,文本的情感分析是一个非常热门的研究方向。面向消费者的产品在电商平台有大量的评论,这些评论是用户对商品使用的直观反馈,包含了用户的情感倾向性。对这些评论数据进行高效、准确的情感分析可以对了解该产品的反馈情况提供很大的帮助。目前,文本情感分析方法主要分为3类:基于情感词典的方法、基于传统机器学习的方法以及基于深度学习的方法。基于情感词典的情感分析是最早使用,也是原理最简单的情感分析方法。该方法的准确性很大程度上依赖于情感词典的规模和完善性。对于新出现的词汇,情感词典无法及时进行收录,会使得情感分析的结果受到一定影响。基于机器学习的情感分析方法是继基于情感词典的情感分析方法之后第二种常用的方法,目前依然被广泛使用。相比于基于情感词典的方法,基于机器学习的方法最大的不同是该方法可以通过带标签的训练数据进行训练,让分类器去提取复杂文本中的情感特征,有效的解决了情感词典方法规则固定,对复杂句式判断能力差的缺点。但是,这些机器学习方法对特征工程的依赖程度过高。本论文所研究的是电商评论数据,如果使用传统机器学习的方法,对于不同类别的商品评论需要各级领域的专业人士进行特征提取,其开销较大。从2013年开始,深度学习开始被应用于自然语言处理的任务中,其中很多算法的性能相较于以往传统机器学习方法有着突破性的提高,使之迅速成为主流的研究方法。最近,大量学者将Attention机制运用在自然语言处理领域,Google公司在2018年提出的基于Attention机制的Bert模型刷新了该领域各种任务的记录。BERT不仅本身是一个优秀的模型,还可以和其他模型结合起来,在自然语言处理的很多领域达到更好的效果。在Bert模型被提出之前,大多数基于深度学习的情感分析工作都是使用Word2Vec来生成词向量,然后接上分类器进行文本的情感分类。虽然Word2Vec相较于传统机器学习方法可以更有效的提取文本的特征,但是该模型为静态编码,无法处理一词多义的问题,这一特性造成了该模型的局限性。在Bert模型被提出之后,情感分析相关工作中使用的模型逐步由Word2Vec替换为Bert。近两年来提出的使用Bert的模型相较于以往使用Word2Vec的模型大都有明显提升,但是在情感分析任务上,依然存在一定的提升空间。第一,在Bert提出之后,有一些研究针对Bert模型进行优化,提出了改进的模型如Roberta和Albert等,这些模型相较于Bert有更好的性能。第二,下游任务的神经网络的构建也对准确率有明显的影响,对这部分神经网络进行改进,同样可以提高模型的准确率。在构建下游神经网络的时候,需要通过实验来确定最佳的结构,本论文通过在电商数据集上进行对比实验,从而构建混合模型,使得该模型相较于近年来最常使用的模型有着更好的准确率。本论文提出的Albert-BiLSTM-ATT-RCNN混合模型在设计上为典型的文本分类任务的结构。首先要将文本转换成特征向量,然后通过全连接层进行分类。而将文本转换成特征向量这一步为混合模型的核心。这一步首先要将文本中的每个词转换成词向量,这个过程中使用的模型的文本特征提取能力会对整个混合模型结果产生很大的影响,因此本论文提出的混合模型选取最新的Albert模型来替代Word2Vec模型。在构建下游神经网络的时候,要最大化该部分神经网络的特征提取能力。本混合模型的下游神经网络以BiLSTM模型为基础,融入了 RCNN层和Attention层进一步提取序列特征,使得混合模型达到最佳的分类效果。混合模型的RCNN层选取整个时序上的最大值来作为文本的特征表示向量,这种选取方式类似CNN模型的最大池化。选择该方式是因为在一个文本中一般只包含少量的重点词汇,这些词汇对文本的情感倾向往往有着决定性的影响,使用最大池化可以将这些重点词汇的特征表示突出捕捉,而平均池化则会稀释这些重点词汇的特征表示。混合模型的流程如下:首先,训练数据中的每一条评论文本首先会被转换成Albert指定的输人格式,经过Albert模型计算生成该文本的词向量编码,在这之后,该词向量编码会作为BiLSTM模型的输入,BiLSTM层会分别计算正向和逆向的上下文表示向量。之后的模型分为两个部分:第一部分为RCNN,该层会将评论数据中的每一个词的词向量和这个词的上下文表示向量拼接起来,作为卷积层的输入,再通过max-pooling层之后输出文本对应的特征向量;第二个部分为注意力机制加权处理,通过给定BiLSTM的每一个时间节点的输出一个权值,然后通过训练确定最优权值分配,最后加权求和得出特征向量。最后一层是将这两个特征向量拼接起来,经过一层全连接层,通过softmax函数得出对该文本情感极性的判断。在训练过程中会通过损失函数对预测结果的误差进行量化,然后在训练的过程中不断优化网络参数来减小该误差。训练的模型会被保存起来,在之后的评估阶段加载训练好的模型,使用该模型对测试集数据进行分类预测,以评价该模型的准确率。本论文在Albert-BiLSTM-ATT-RCNN混合模型的基础上,设计了一种表情符号处理方案,即评论文本使用预训练语言模型,表情符号通过随机初始化的方式进行特征学习。实施流程如下:首先将评论文本中包含的表情符号提取出来,将去掉表情符号和文本和表情符号分别储存。然后对表情符号的特征向量进行随机初始化,在fine-tune过程中学习它的特征。接着将Albert层输出的词向量编码与表情符号的特征向量进行拼接。最后将拼接后的向量作为BiLSTM层的输入,之后的步骤和无表情符号处理的混合模型一致。该方案可以在不改变原有混合模型结构的前提下增加对表情符号的训练。使用该方案可以更有效的对包含表情符号的评论文本进行情感分析。本文使用爬虫爬取的京东、天猫平台的商品评论数据作为数据集。爬虫爬取的原始评论数据在进行预处理和人工标注之后加入到数据集中。本论文提出的混合模型在该数据集上进行实验,首先通过不同超参数设置的对比实验确定混合模型超参数的设置,然后将混合模型与近年来最常使用的Word2Vec-SVM、Word2Vec-RCNN、Word2Vec-BiLSTM-ATT 以及组成混合模型的单一模型 Albert、Albert-RCNN、Albert-BiLSTM-ATT等模型在同—数据集上进行对比实验,实验数据表明,本混合模型具有最高的准确率,达到89.89%,相比于使用Word2vec的模型准确率提升超过5%;相比于只使用Albert单一模型,混合模型提升了 2.3%的准确率,验证了在Albert模型的下游任务中增添神经网络进一步提取特征可以得到更高的准确率。而相比于混合模型组成部分的Albert-RCNN和Albert-BiLSTM-ATT这两个模型,混合模型分别提升1.56%和1.43%的准确率,验证了同时使用RCNN层和Attention层可以得到进一步提升。之后是验证表情符号处理方案的实验。实验结果显示,表情符号参与训练可以提升1.9%的准确率,具有一定的有效性。由于Bert相关的预训练模型仅包含了对文字的处理,对于本论文研究的电商评论这种包含表情符号的网络文本,在原混合模型的基础上增加对表情符号处理可以在一定程度上提高情感分析的准确率。