论文部分内容阅读
随着移动终端技术的发展以及2014年政务微博平台的建设,微博的发展越来越迅速。作为一种社会媒体与社交平台,微博拥有庞大的用户群体,其上的一个热点话题,往往会有上万条的主观评论,而这些评论一般都带有用户对该热点的情感倾向,通过对这些短文本大数据的研究,分析大众情感倾向,对舆情分析,营销预测都有所帮助。本文针对话题型的微博展开了研究,对其挖掘方法进行了比较,并对SVM算法进行了研究改进。本文研究主要包括了:微博主客观判定,基于词典的无监督分类,基于机器学习的有监督分类比较,SVM多分类情感分析研究以及SVM分类器的改进。面向微博情感有高兴,喜好,愤怒,悲伤,恐惧,厌恶,惊讶以及无情感分类。首先对微博进行主客观判定,对主客观文本分别用词性特征与文本特征两类特征向量表示,词性特征包括情感词、特殊符号、程度副词、人称代词以及词性2-POS对,文本特征分别用词频、TF-IDF、相对熵的来提取,并通过实验比较了提取效果,最终组成文本向量。分别用朴素贝叶斯和SVM的方式对主客观分类做比较。实验表明SVM具有较好的效果。其次对主观微博进行情感分类比较,其中有无监督的基于词典分类方法,词典采用了大连理工大学信息检索研究室中文情感词汇本体库,对情感词库进行了扩充,扩充包括表情扩充,网络词扩充,同义词词林扩充。然后对不同的情感加权方法展开了讨论。有监督的机器学习方法,采用SVM分类器,并比较了各种SVM多分类器的性能,包括一对一分类器,一对多分类器,以及二叉树分类器,提出了一种新的二叉树多分类构造方式,并通过实验证明其效果。最后对支持向量机原理展开研究,比较了不同核函数对微博多分类的影响,对径向基核函数(RBF)以及参数变量做最优寻参,采用了新的网格算法,新的算法提升了寻参效率,并且寻找到的参数对分类优化起到了一定作用。