论文部分内容阅读
情感分析是一门涉及到自然语言处理、数据挖掘及人工智能的一门技术,并且最近已经成为了一个热门话题。所谓情感分析是通过挖掘和分析文本中表达的内容,从中识别出情感信息(比如表达的是消极、积极还是中立)。本文所研究的情感分析是基于中文方面的,从中文文本中获得情感极性(积极或者消极)。情感分析比较关键的因素包括:情感词典、语义上下文信息、词序以及情感信息等。但是传统情感分析方法存在许多不足:现存情感词典覆盖度比较差,而且每个领域的情感词并不一样;传统特征选择的特征具有维度大,而且忽略了语义及词序的缺点。针对以上问题,本论文主要做出了以下贡献。本论文研究了情感词典拓展的方法用于情感词典的拓展,发掘情感新词,解决情感词典覆盖度的问题,其中包括两个方法:基于规则模板进行情感词典的拓展和基于英文情感词典进行拓展。基于规则模板方法主要包括三个阶段:人工采集规则、获取候选情感词以及确定情感极性阶段,主要使用了规则和点互信息进行情感词典的拓展,具有方便快捷的特点;基于英文情感词典的方法根据英文情感词典以及中英文平行语料库的中英文词语对齐信息进行中文情感词典的拓展,能够尽可能多的获取情感新词。本论文还研究了基于词向量的特征选择与表示,用于解决传统方法中的特征维度高、忽略语义及词序信息的问题,主要包括两个方法:基于词向量与情感信息结合的方法和基于句向量的方法。基于词向量与情感信息结合的方法中,将文本中分词后的每个词语的词向量和情感词典中的情感词结合起来同时作为特征,即考虑了语义上下文信息又考虑了情感信息,同时特征维度比较小;基于句向量的特征选择与表示方法,将一个文本整体训练成一个向量用于训练分类器,考虑了语义及词序因素的同时特征维度降低了。最后本文为了验证提出方法的有效性,将提出的情感词典拓展方法和基于词向量的特征与表示方法运用到了情感分析中,得出了三个情感分析框架用于实验。实验采用python环境,使用网络爬虫获取商品评论数据集,使用大型语料库训练词向量和句向量,使用平行语料库获取中英文对齐信息,对数据进行预处理,主要进行了两个实验:传统情感词典方法和使用本文提出的情感词典构建及拓展方法进行情感分析的实验,用于验证情感词典构建及拓展方法的有效性;传统机器学习方法、基于词向量和情感信息结合的方法以及基于句向量的方法的实验对比,用于验证基于词向量特征选择与表示的方法有效性。从实验结果中,进行了分析对比,得出了本文提出的情感词典构建及拓展方法和基于词向量的特征选择与表示方法的有效性。