论文部分内容阅读
微博是目前最流行的社交网络平台之一,是可以自由发表观点的地方,这些观点涉及商品评论、舆情事件、娱乐评论等,同时,微博数据的易获取性也为其情感分析的研究提供了便利性,使得微博的情感分析成为国内外学者们研究的热点。本文提出了借助知识元理论构建的微博情感知识集的方法,并使用提取的情感知识辅助微博特征提取和扩充以及情感对象的识别,最后使用多个不同分类器集成的方法完成对微博的情感分析任务。论文提出了构建微博情感知识集的方法,采用知识元理论作为微博情感知识集的表示方式。该方法首先通过查阅资料和在其他新闻网站上搜集资料,构建初始的微博情感先验知识集,然后通过基于条件随机场的方法借助构建的初始微博情感先验知识,自动抽取出微博语料中的情感对象知识元,进而通过去重等程序获取最终的微博领域情感知识元集,最后利用XML格式文档将获取的微博情感知识存储起来以便使用。通过使用不同领域的微博语料进行实验,证明该方法的可行性和有效性,为后续微博情感分析提供支持。论文还提出了基于异态集成学习的微博情感分析方法,该方法针对微博数据来源广泛,涉及领域较多的特点,选用微博情感分析中常用的四类分类器进行集成,集成方法在原来简单投票法的基础上进行了改进,引入了贝叶斯决策的方法进行投票,利用各个分类器训练后的混淆矩阵作为先验知识进行决策分类。微博特征稀疏的特点给微博情感分析带来困难,基于这个原因,我们利用微博情感知识集对其特征进行了扩充,充分利用微博社交化的特点,增加了微博结构特征,提高了情感评价对象识别的准确性。为了研究多个组合特征和不同分类器集成对微博情感分析的影响,论文采用“控制变量法”的思想进行了交叉实验,实验结果表明了本文提出的微博扩充特征和集成方法对微博情感分析是有效的和可行的。