论文部分内容阅读
微博作为一种新的信息发布和社交网络平台,在短短几年内,其用户规模猛增。用户注册微博后,通过微博结交朋友,关注好友与名人,转发、回复、评论消息。微博已成为广大网民获取资讯、交流互动、表达个人情感和观点的重要媒体,从各个方面渗透并影响着人们的生活。随着微博商业价值、媒体价值、社会价值和影响力地不断增长,吸引了越来越多的学者投入到微博的研究中,而情感分析是其中重要的课题之一。情感分析是针对微博中的情感倾向性进行判定,即属于正面、负面、中性。通过对微博进行情感分析,可以实现品牌推广、微博营销、舆情监控等。本文以中文热门话题微博为研究对象,研究中文微博情感倾向性判断的特征和方法。在分类方法上,验证了基于表情和情感词典规则的方法和基于SVM分类的方法。根据微博的网络语言特点,特征抽取考虑2种方案,一是通过构建相关的情感词典和表情词表资源,选取主题词、表情词、情感词、情感短语、标点符号、词性等作为语义特征;二是考虑词项出现和情感类别依赖关系的基于Unigram和CHI统计的特征抽取。实验使用的是NLP&CC2012评测数据,实验结果表明,基于微博语义特征的SVM分类,分类效果的好坏很大程度上与情感词典、表情等资源有关。基于Unigram和CHI统计特征的SVM分类结果略好于基于微博语义特征的SVM分类,准确率由81.6%提升至84.2%,提高了2.6%。