论文部分内容阅读
互联网持续高速的发展带来了便捷的生活方式,各种新闻、社交、娱乐、电商网站层出不穷,我们可以随时随地在网上进行阅读、购物、交流等。在这些网站中,经常会产生大量的评论性文本,即描述对某一件事情的看法或者意见的文本,对这种类型的文本进行意见挖掘和整理,有助于我们辨别产品好坏、商家提高服务水平、政府掌握舆情走向等。在这些评论文本中,大部分都包含有明显的情感倾向性信息,如何准确地对这些文本进行情感倾向性自动分类,是本文的主要工作。深度学习具有强大的特征自动提取功能,已被广泛应用到了语音识别、机器翻译、图像识别、人机交互等各个领域中。在情感分类的研究中,由于文本特征提取的困难性和复杂性,基于传统的学习方法已逐渐被深度学习所取代。本文在基本神经网络的基础上,通过加入词语的情感向量来提高情感分类的准确率,主要工作有:一是对领域相关情感词进行识别,并计算情感词语的情感强度值。不同领域的评论文本中会含有一些领域相关的情感词语,为了准确地判断文本的情感倾向性,需要对领域相关情感词进行识别。本文基于无监督学习的思想,通过构建普遍适用的情感语句规则模型来实现情感词语的自动识别。其中,识别的过程采用的是“差分共现”法,该算法是根据词语共现的特点及其在不同情感类别中出现频率的差异性来设计的。另外,为了进一步提高情感分类的准确率,本文通过分析HowNet和word2vec各自的优缺点,最终采用两者相结合的方式共同决定词语的情感强度。其中,情感强度的计算过程采用的是“基于TF-IDF的种子词”法,是根据词语相似性原理以及当前语料下词语的重要程度来设计的。二是构建了词语的三维情感向量,并将其嵌入到深度学习模型中。在基于深度学习的情感分类模型中,研究者们热衷于构建各种神经网络模型,但是情感词语对于情感倾向性的判断有着举足轻重的作用,不应完全抛弃。本文首先根据情感表达中最主要的三个特征——情感词、否定词和程度词特征构建出词语的三维情感向量,针对情感分类任务扩展了词语的情感信息,并将其嵌入到基本神经网络模型中去,提出了四种结合的方式,分别为naive-CNN,separate-CNN,naive-LSTM和separate-LSTM。实验表明,在基本神经网络模型中加入情感向量有助于提高情感分类的准确率。