论文部分内容阅读
近年来,随着微博注册用户的快速增长,微博平台累积的用户数据成几何倍增加,怎样有效的利用这些海量的数据,发掘数据中有价值的信息,成为了领域内的研宄热点。其中,微博情感分析是一个比较热门的研究方向,它在舆情监控、热点追踪,以及用户满意度调查等方面都有广泛的应用。但由于微博文本相较传统的长文本来说信息量少、格式不规范、口语话严重、含有大量的噪声等特点,微博情感分类研究的效果并不理想。除此之外由于中文语言的特殊性,对中文微博的情感分析准确率更是不能让人满意。针对这一情况,本文提出了融合多种特征进行中文微博情感分析的方法,提取了基于情感词典的分值特征,基于机器学习的概率特征,以及基于深度学习的词向量特征融合进行情感分析,提高了情感分析的效果,主要工作包括以下几方面:1.研究了基于情感词典特征和机器学习特征的两类情感分析方法的基本原理和算法,并且比较了它们各自的优劣。2.设计了基于SO-PMI(Semantic Orientation-Pointwise Mutual Information)算法和情感符号词典扩充情感词典的方法,并使用扩充后的词典结合规则模板抽取了每条文本的情感分值特征。实验结果表明,使用新的情感分值特征分类效果比传统的情感词典特征效果更好。3.设计了新的基于机器学习的微博文本特征抽取方法,借鉴集成学习的思想,集成朴素贝叶斯,逻辑回归,支持向量机以及最近邻分类器的概率输出结果,共同构建特征向量作为特征。实验结果表明,使用新的基于机器学习的概率特征进行情感分析效果更好,特征的表征能力更强。4.训练Word2vec模型,并使用模型对每条微博抽取了包含上下文语义的词向量特征作为补充特征,同时融合情感分值特征和机器学习概率特征进行情感分类实验。实验表明本文提出的融合多种特征进行情感分析的方法能够实现特征互补,达到更好的情感分类效果。