论文部分内容阅读
进入Web2.0时代以来,网络深深影响并改变着人们的生活。近年来出现的微博以其内容简洁和实时交互的特点深受大家的欢迎。越来越多的人选择在微博平台上分享信息,以及观点和情感的交流。情感倾向分析是指通过分析说话者在传达信息时所蕴含的情绪状态,对说话者的态度和意见进行判断、评估。而微博的情感倾向分析主要是判断微博文本的情感倾向性,即属于正面、负面和中性。通过对用户的微博信息进行情感倾向分析,可以实现微博营销、舆情监控、品牌宣传等。目前已有的相对成熟的微博情感倾向分析研究大部分上是针对于英文微博的,国外对英文微博的研究成果应用到中文微博领域存在明显的局限性。而对中文微博的情感倾向性分析研究基本上处于初级阶段,目前研究中存在的一个难点是,如何建立一个完备的情感词典来对微博中的情感词汇进行特征提取。对此本文就如何建立一个更加全面和完善的微博情感词典展开了工作。本文对目前已有的情感词典资源进行分析、处理,包括有NTUSD情感词典,知网情感分析词语集,同时整理了网络流行情感词汇、新浪微博平台的常用表情符号,从而首先构建出一个基础情感词典;然后基于新浪微博的语料数据,采用扩展的SO-PMI算法来提取出微博领域中具有情感色彩的词语,构建了一个含有377个正面情感词汇,1108个负面情感词汇的面向微博的领域情感词典,进一步增强了情感词典的完整性和覆盖面;接着通过构造词语倾向性函数,以计算汉字频率的方式计算基础情感词典、微博领域情感词典中每个情感词汇的极性强度,情感词的极性强度的量化计算,提高了词语情感强度的准确性;最后将扩充后的基础情感词典和微博领域情感词典整合,构建出一个含有5527个正面情感词汇和10615个负面情感词汇的情感词典表。基于扩展后的情感词典,针对每一条微博消息文本数据进行预处理,采用情感词典表进行微博语料的特征提取,以及对微博情感符号、否定词,程度副词等修饰词语的分析、处理,以及词汇组合模型的计算,最后作加权求和处理得出每条微博的情感倾向性,从而实现了一个对中文微博进行情感倾向判别的系统原型。本文实验中所使用的新浪微博语料数据来源于数据堂,通过人工标注的的微博消息和本系统的判别结果相对比验证,实验结果表明本系统的分类最高准确率为88%,平均准确率为71.3%;最高召回率为86%,平均召回率为68.6%;最大F1值为75.1%,平均F1值为68.1%,因此取得了一定的效果。