论文部分内容阅读
在如今互联网时代,人们常常在社交网络上针对事与物表达个人观点看法。运用数据挖掘方法和文本情感分析技术对涌现的用户文本数据进行分析,可以发掘普通大众对热点话题以及产品的态度与评价,从而及时发现网络舆情和获取商品售后评价反馈,因此面向文本的情感分析研究有着较好的现实意义及商业价值。中文微博自身语言表达简练,多变且情感词典缺乏,是当前情感分析的主要难题。针对此问题,本文分别从情感词典扩充,微博情感分类以及微博文本观点挖掘三个方面进行研究,本文的研究主要内容及贡献如下:1)提出双词向量与相似次数最大思想相结合的扩展情感词典的方法,本文称之为2E-SM(2 Embedding and Similarity Maximum),其原理是在已有情感词典的基础上,利用Glove与Word2Vec计算相似度获取候选词集合,这种结合可以同时捕获全局与局部相似,接着计算候选词与哪一类情感出现相似次数最多来确定候选词的情感倾向信息,实验表明,与经典的SO-PMI算法相比效果较好。2)基于CNN与LSTM深度神经网络,提出词向量融合的微博情感分类模型。对于CNN,考虑全局与局部语义信息,以Word2Vec与Glove为双通道,构建双词向量卷积网络(2 Embedding CNNs)2E-CNN;接着在2E-CNN基础上,词向量拼接浅层词性特征向量(Simple Feature)后构建双融合词向量卷积网络(2 Embedding mixed with Simple Feature CNNs),本文称之为2ESF-CNN,此模型在准确率上提升了约1.8%,优势在于训练时间少。对于双向LSTM,词向量同样拼接浅层词性特征向量与注意力机制结合后构建模型ESF-BLSTM-ATT,此模型在准确率上较基准模型提升了约1.6%,优势在于仅需一个融合后的词向量。3)句法依存关系与扩充的情感词典相结合的方法进行观点挖掘,为了保证方法的泛化性,本文采用制定的语法规则与扩充的情感词典相结合的方法进行评价方面与评价词联合抽取的工作。首先利用依存关系提取出若干语法规则,然后结合情感词典,以情感词与评价方面为中心,进行评价方面与评价词的联合抽取,最后进行模糊归纳匹配形成更加鲜明观点。