论文部分内容阅读
随着计算机的普及、互联网技术的成熟以及Web2.0技术的飞速发展,微博等社交网络已经成为媒体传播、信息发布、用户情绪反馈、情感沟通的重要渠道。对微博文本中所包含的情感和情绪信息进行分析和跟踪,能够了解广大网民对特定产品、人物或者事件的关注程度和情感变化,为决策提供实时和科学的依据。因此,面向微博文本的情绪分析研究具有巨大的社会意义和商业价值。本课题主要研究对微博文本内容进行分析,从中识别和分类微博文本所包含情绪的方法。本文的主要工作包括:第一、针对微博情绪标注语料库缺乏的现状,课题首先设计面向微博文本的情绪标注规范。在这个规范下对微博文本进行微博级和句子级的多标签情绪标注。目前完成14,000条微博,45,431条句子的情绪标注语料库的构建。第二、考虑到主流的单独利用词语句内特征的分析方法对长度短、表达方式灵活的微博文本很难获得较高性能,课题提出一种结合上下文特征和篇章特征的多标签微博文本情绪分类方法。这种方法使用词语句内特征和多标签最近邻分类器作为基分类器,对每个句子进行初始情绪分类。而后引入相邻句子之间的情绪转移关系特征和微博句子与整体之间的情绪转换关系特征,利用上下文和篇章的情绪趋势迭代地修正句子情绪分类结果。在NLP&CC2013微博情绪分析评测语料库进行的实验显示,句子级分类性能相对于基线系统有22.97%的提升。第三、针对在实际应用中较多无情绪微博影响情绪分类效果的问题,课题研究了基于多分类器集成策略的两步微博情绪分类方法。首先集成梯度提升决策树和支持向量机两种分类器进行情绪有无判别,然后利用多分类器集成的方法对有情绪的微博进行情绪分类。第四、在上述工作基础上,构建了一个面向微博热门话题的情绪监控系统,实现了对微博热点话题的情绪分析和可视化。本文主要贡献包括:第一、建立了目前规模最大的中文微博情绪标注语料库。应用该语料库作为公用标准,组织了大规模评测。第二、设计实现了一种采用由粗到精策略、结合使用句内特征、上下文特征和篇章特征的微博文本情绪分类方法。该方法在NLP&CC2013微博情绪分析数据集上达到了目前已知最高性能。第三、针对大规模真实微博文本的特点,设计实现了基于多分类器集成策略的分类方法,有效提高了情绪分类的性能。