论文部分内容阅读
当前微博已经成为人们发表意见、表达情感的最重要的一种渠道,微博中产生的大量带有情感的信息,反映了人们对热点事件、热点话题的褒贬倾向。因此对微博中这些情感文本进行挖掘和分析已经成为当前的一个研究热点。本文通过话题识别技术和情感分析技术对微博中的新闻话题进行分析。使用话题识别技术从海量的微博数据中发现热点新闻话题;并与情感分析技术结合,分析监测热点话题的情感极性和情感强度,及时把握广大网民对热点话题的看法和评价,可以有效的帮助政府职能部门了解民意,便于决策者做出决策。针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题。该方法首先在微博数据预处理之后,综合相对词频和词频增加率两个因素抽取微博数据中的主题词;然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题。最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了基于词共现图方法的有效性。针对微博的情感分析研究得到了越来越多的关注,本文根据中文微博的特点,给出了一种基于语义规则的方法对微博热点话题进行情感分析。这种方法首先需要人工整理出程度副词表,否定词表和微博中默认表情符号的褒贬分类;然后在情感词语计算的基础上,考虑上下文中否定词和程度词对修饰情感词语的情感倾向和情感强度的影响,同时也设定规则计算表情符号对一条微博的情感倾向判断的作用。最后把基于语义规则的方法与基于情感词典的方法做了实验对比,实验结果表明基于语义规则的方法是有效可行的。