论文部分内容阅读
随着社交媒体和电子商务的发展,越来越多的用户开始使用社交网络服务表达自己对商品、公众人物、新闻事件等各类话题及对象的观点和看法。如果能够从这些海量的信息中挖掘出有价值的情感信息,将会推动产品推荐、舆情监测、民意调研等方面的发展。文本情感倾向性分析旨在对带有情感色彩的文本进行情感极性判断,是文本情感分析的一项核心任务,具有非常重要的研究价值,同时也面临着许多挑战。基于深度学习的分类方法具有很好的适应性,而且特征学习能力比较强大,具有很大的竞争力。但是,目前已有的深度学习方法在文本特征向量表示时较单一,并且没有有效利用文本数据中的关键字。因此,本文针对存在的问题,主要研究工作如下:(1)针对文本表示问题,提出了多粒度融合的卷积神经网络(MultiGranularity Fusion Convolution Neural Networks,MGF-CNN)文本情感分类算法。首先,将词性特征、位置特征和词向量特征进行结合,提出一种多粒度特征融合的文本表示方法。然后,通过卷积神经网络(Convolution Neural Networks,CNN)进行特征提取。为了提取到更多更重要的文本特征信息,本文采用了不同尺寸卷积窗口和最大池化操作方法。最后,在中英文两种语言的评论数据集上进行测试,实验结果表明:MGF-CNN模型与单一词向量表示的深度学习算法相比准确率明显提高。(2)为了更好地提取句子的序列特征,对句子中的关键词给予更多的关注。本文提出将卷积神经网络和双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)进行组合,并将融合后的特征添加注意力机制(Attention Mechanism),设计出CBLSTM-Attention模型。首先,利用CNN提取句子的局部特征,利用BiLSTM提取上下文序列特征,将两种神经网络提取的特征进行结合,获取到更全面的文本语义表达。然后,将融合后的特征,通过基于门控机制的注意力模型,对不同的词赋予不同的权重,使模型更加关注与输出结果有关的特征。实验证明:CBLSTM-Attention模型与其他代表性论文工作进行比较,在中英文四个数据集上均提高了文本分类的准确率。