论文部分内容阅读
微博客(即微博,Microblog)作为一种新的传播载体,已经迅速进入了人们的生活,其中包含了大量针对人物、事件、产品等有价值的评论信息,表达了人们的各种情感倾向,因而在网络舆情发起和传播中起着重要作用。本文针对中文微博的特点,研究数据净化及情感倾向分析技术和相关问题。首先,针对微博的噪音和近似重复问题,研究微博数据的净化方法。近来噪音微博和近似重复微博迅猛蔓延到微博空间的各个角落,这类微博的存在严重影响到了信息检索的准确性,大大降低了分析的可信性。基于此,本文根据统计数据,分析了噪音微博和近似重复微博的特点,提出一种面向微博文本的噪音检测与近似重复内容过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过构建向量空间模型的分段过滤和基于缓冲池的内容索引过滤的双重过滤,检测和剔除掉近似重复的微博。实验表明该方法能有效地对微博数据进行净化,高效准确地过滤掉近似重复微博和噪音微博,提高了微博数据处理的质量和效率。其次,针对微博的直抒性特点,研究微博的情感倾向分析方法。“直抒性”即微博用户习惯利用表情符号、感叹词和程度副词等来“直抒己见”。目前对于中文微博的情感分析,虽然面向短文本的、基于情感词典等其他各种情感分析方法可以应用于此,但这些方法中较少针对微博内容表达特点,主要表现在缺乏微博相关领域情感词典、修饰词词典以及对应的相关处理等。因此,本文分析了现有情感词典和知识库内容对于微博情感分析的不足,利用微博表情符号自动构建一个面向微博的、新的带权值的情感词典,同时构建了包含各种修饰词的辅助词典,进而提出了基于这种新情感词典、并结合其他修饰词典的中文微博情感倾向分析算法。实验结果表明,本文构建的带权值的新型情感词典包含了大部分微博常见情感词,并且可以获得微博的精确情感倾向程度。同时实验证明了基于该词典的微博情感倾向分析方法具有良好的准确率、召回率和F值。最后,基于前述研究成果,设计并实现了一个原型系统。该系统集数据下载、结构解析、数据净化、情感分析、结果输出于一体,提供给了用户高质量的微博数据,直观地表现了情感分析的结果。用户通过下载和分析微博内容的情感倾向,能够了解社情民意,为进一步的网络舆情分析提供支持。