论文部分内容阅读
                            
                            
                                随着互联网Web2.0技术快速发展,微博成为继博客之后当下最流行的社交应用。微博以其方便、自由的形式,短期内便吸引了大量的网民。数以亿计的网民每天通过微博平台发布微博消息,这些海量消息均是来自网民自己的声音,含有丰富的情感内容信息,可以通过挖掘这些情感内容信息来了解网民对社会热点事件、政府政策的态度,为用户、政府或企业提供决策支持。本文以新浪微博作为研究对象提出了针对中文微博的情感分类方法,主要做了以下工作内容。第一,本文使用采集的新浪微博消息,从统计学的角度对新浪微博消息内容长度、句子个数及微博中包含的链接、话题标签、表情符号、图片进行了定量分析。这些内容的分析和对比是分类方法中特征提取和算法设计的重要参考依据。第二,本文从语义规则角度提出了基于微博词典和回应消息的微博情感分类方法。该方法通过构建微博情感词典,结合回应消息对微博进行情感分类,同时对引入的回应消息设计了可度量计算方法。另外,又提出了回应消息可信度的概念,主要用来衡量回应消息的真实性。第三,本文从机器学习角度提出了基于语义特征和回应消息的微博情感分类方法。该方法通过提取微博语义特征、微博元素特征及回应消息特征,利用向量空间模型表示分类特征向量,结合SVM分类算法实现分类模型,实现对中文微博的情感分类。最后,本文使用新浪微博作为训练和测试数据,针对提出的方法设计了多组实验,详细对比分析了各组实验结果。得出的结论是本文提出的分类方法是可行和有效的。