论文部分内容阅读
微博简短写作,便捷发布,实时交互的特点吸引了越来越多的人在微博上实时更新消息,交流观点,微博平台的规模迅速发展起来,其提供的功能服务越来越丰富。庞大的微博信息看似杂乱无章,没有规则,实则包含了众多话题,从海量的微博信息中找出热点话题,并对其进行情感分析逐渐成为一个新的微博应用领域。本文针对中文微博做话题发现与倾向性分析研究。首先分析国内外微博话题发现和倾向性分析方面的最新研究方法和成果,设计出一个微博话题发现算法;然后,依据情感词本体、规则集和微博表情符号,对发现出来的话题进行情感分析,从而获得指定话题的情感倾向。最后,以2013年1月15日到2013年2月5日20天内的新浪微博数据为基础,初步实现了一个微博话题情感分析原型系统。本文的主要工作如下:(1)情感词汇本体构建:研究了情感词获取方法,一方面整理和总结了当前已有情感词汇资源,构建基础情感词本体,另一方面搜集网络情感用语和一些兼类词扩充基础情感词本体。(2)微博话题发现:首先对具有相同主题的原创微博、转发微博、评论微博进行合并,生成单微博树,形成一个长文本,以3-Gram模型表示该长文本;然后对具有高相似度的多个单微博树进行合并,形成一棵多微博树,再对每棵多微博树进行话题抽取形成微博话题;最后计算出每个话题的热度,并依据话题热度,对其进行排序。(3)微博话题情感倾向分析:根据语言学的知识,分析句子的上下文语义关系,建立规则集,用3-POS模式表示文档;然后,依据情感词汇本体、微博表情符号与规则集,抽取出主观性3-POS模式,并对其进行倾向性计算,设计微博话题倾向性计算算法。(4)微博话题发现与倾向性分析应用研究:以2013年1月15日到2013年2月5日20天内的新浪微博数据为基础,设计并实现一个微博话题发现与倾向性分析原型系统,初步展示了其使用价值。