论文部分内容阅读
微博即微博客,日益成为当今最炙手可热的互联网应用。据统计,平均每天产生的微博数量高达1亿条,在这海量的数据中不仅包含着对客观性事实的描述信息,同时还蕴含着大量微博用户的情感状态、观点看法等主观性信息。而这些主观性信息不仅有助于用户决定是否去购买某个产品,而且对于商家制定产品营销策略也具有重要的参考价值,甚至在舆情监控领域也为政府部门提供了有效的数据来源。基于此,针对中文微博设计了基于句法依存关系和文本分类技术相结合的微博情感分析方法。该方法利用句法依存关系初步判断出微博评论的情感倾向性,同时计算出结果的置信度,选择置信度高于特定阈值的结果作为训练样本,并结合微博内容特征集和微博媒体特征集训练得到一个两步情感分类器,该分类器第一步对微博进行主客观识别,第二步则对主观性微博再次进行情感极性分类。另外,在训练集的选择上,利用微博中常用的表情符号来自动标注训练样本,并实现了一个自增式的学习策略来解决微博实时情感分析问题。实验表明,相比仅利用句法依存关系的方法,该方法在正确率和召回率上分别提高了6%和3%。特征的选择方面,微博内容特征集和微博媒体特征集均优于一元文法特征的分类效果,其中主客观分类的正确率和召回率均可达88%,情感极性分类则分别为72.1%和71.5%,尤其是基于微博媒体特征集的情感分类方法更适合解决微博实时情感分析问题。