论文部分内容阅读
大数据,人工智能时代推动了互联网社交媒体的革命,同时为网络文本高质量发展准备了条件。文本情感分析是自然语言处理的核心任务之一,其致力于通过对非结构化文本的上下文信息进行分析、学习、归纳等处理来提取情感语义特征,以便挖掘主观性文本中表达的情感倾向性。因此,如何从大量纷繁浩帙的信息中精确获取到文本内容隐藏的价值信息,是当今文本情感分析领域从事科学研究的中心环节。然而传统的文本情感分析主要面临两个挑战:一个是由于文本特征的选取容易受文本特征提取者意识主观性的影响,无法深入挖掘有效的隐藏信息;另一个是由于基于传统方法提取到的关键词无法有效建立重点关键词之间的属性关系,提取到的特征代表性不够高,形式过于简单。近几年,深度学习在包括自然语言处理等多领域取得了不错的成果。基于此,本文在基于深度学习的句子级别文本情感分析领域,整合目前主流的神经网络模型自身的优势与特点构造基于深度学习的融合模型,并在此基础上结合了注意力机制(Attention Mechanism)、主成分分析法(Principal Component Analysis,PCA),朴素贝叶斯分类器(Naive Bayes Classifier,NBC)等机器学习的方法,提出了两个模型:1.针对传统卷积神经网络提取文本情感特征较为单一,无法平衡好目前池化方法在特征向量维度过高和保留语义信息之间的矛盾关系的问题。提出了基于传统卷积神经网络和PSGD(Partial Sampling Gradient Descent)模型更新算法的CNNpbc模型(Convolutional Neural Network plus Bayes Classifier)。CNNpbc在池化层采用k-max+avg pooling的并行双池化操作进而更好地保留文本语义特征,模型通过PSGD算法保证训练过程的稳定性并提高了模型的收敛速度,提高分类的准确率。2.针对目前基于深度神经网络模型较为独立单一,无法充分聚合各模型自身优势同时未充分考虑关键词影响力因素的问题。将特定目标情感分析中对关键词的分析融入句子级别文本情感分类之中,提出了MATT-CNN+BiGRU融合模型。该模型利用注意力机制中的词向量、词性、位置三大要素来构建情感词向量嵌入矩阵。既能利用多注意力CNN对n-gram特征提取和目标关键词局部特征提取能力强的优势,又可以结合BiGRU模型结构相对简单并且可以兼顾文本的全局特征从而充分考虑词的上下文语义信息的优势,打破了长期以来单一模型发展局限性的枷锁,为句子级文本情感分析领域发展提供了一种新的思路。