论文部分内容阅读
文本情感分析是指通过挖掘和分析互联网文本中表达的内容,识别出情感信息,使我们能高效率地了解用户对某产品的观点,进而为商家和其他用户提供决策支持。然而当今互联网的文本特点使情感分析技术面临着巨大的挑战:首先,互联网文本数量爆炸式增长,大多都是无标注的文本数据;而且文本的情感表达形式更加简洁随意,这使传统的词袋特征面临严重的稀疏性问题;此外,人工抽取特征耗时费力,系统适用性较差,难以适应快速更新的文本分析需求。近年来研究者着手研究基于词向量的方法来自动抽取文本特征。词向量,即词的分布式特征表示,可以通过无监督的训练方法得到,有效地利用大量未经标注的数据。相似的单词学到相似的词向量,将其作为特征可以起到平滑的作用,有效缓解稀疏性问题。但传统的词向量学习模型自身存在一些问题:它是根据上下文学习得到,虽然捕获了文本的语法信息和语义信息,但却忽略了情感信息,不能有效地应用于情感分析任务。并且,在句子、文档级别的情感分类任务中,基于词向量的文本特征表示没有考虑句子中词与词之间的顺序问题,这也会在一定程度上影响情感分类的效果。为了解决情感分类任务中存在的若干问题,本文主要研究内容如下:为了将情感信息融入到词向量的学习过程当中,本文提出了基于Glove模型的情感词向量学习框架,在训练词向量的同时融入单词的情感信息。并且根据向量间距离度量方式的不同,本文使用两种不同的情感信息融合方式来构建词向量学习模型。为了验证学到的词向量确实捕获了文本的语义信息和情感信息,本文在中文和英文数据集下进行了大量定性和定量的比较实验。实验结果表明,我们的词向量学习模型能够有效地改善词向量的质量,进而提高情感分类的准确性。为了消除文本中词序信息对情感分类任务的影响,本文提出了将情感词向量与卷积神经网络相结合的文本情感分类模型。首先利用学到的词向量构建文本的输入矩阵,然后通过卷积层不同大小的卷积核来提取粒度不同的文本局部特征,最后通过最大池化方法获得文本的等长特征,进行文本情感分类。本文在中英文数据集上进行了不同粒度(词语级别、文档级别)的情感分类对比实验,结果表明,本文提出的词向量学习模型能有效提取文本的情感信息和语义信息,因而在解决情感分析任务时表现更为出色,并且该模型具有较好的泛化性。