论文部分内容阅读
微博客(即微博)作为一种当前最流行的社交网络媒体,是一个面向用户的信息发布、交流、传播的社交平台。随着移动互联网的不断发展,微博用户的数量逐年上升,由此产生的海量数据信息在舆情事件的发起和传播中起着至关重要的引导作用,并为舆情监控和文本处理提供重要的数据支撑。微博是时代的产物,微博文本有着与传统文本不同的特点,如微博新闻、用户状态和用户评论的内容长度都不超过140字,并且微博文本的内容包含文字、图片、超链接等多种数据格式,因此在对微博文本进行分析和处理的过程中,其他格式的数据信息是不能忽略的。表情符号作为一种新的网络语言普遍应用在现代社交平台中,在微博文本中或多或少的会出现表情符号,甚至个别微博由连续的表情符号构成。因此,表情符号往往能够代替文字成为用户表达情感的图片工具,包含了丰富的情感信息,在微博文本倾向性分析中起到了至关重要的作用。本文提出基于表情符号的中文微博文本倾向性分析方法。通过新浪微博公共API采集微博数据,并对微博文本进行预处理,筛选出种子表情符号作为概念特征,将表情符号分为高兴、喜爱、愤怒、悲伤、厌恶五种情绪。通过计算种子表情符与大量微博文本的互信息对微博文本进行正负向情感分类和情绪分类,在已标注语料的基础上,对抽取到的情感词进行标注,将已有的情感词典进行筛选、整合,并且加入了大量现代网络词汇,生成一个新的情感词典。该词典包含了网络情感词、传统情感词和微博中的常见词汇,旨在为研究微博,乃至其他社交网络文本倾向性分析提供语料库支撑。本文将文本情感词典构建作为目标,通过标注微博文本对情感词进行分类,以互信息作为分类标准,计算情感词与微博文本的互信息,将情感词标注为高兴、喜爱、愤怒、悲伤、厌恶五种情绪类别,实现情感词典的自动构建。并且在情感词典构建的过程中实现了微博文本的情感分类和情绪分类,通过一系列的对比实验,表明本文的情感分类方法能够提高分类的准确率。在情感词典自动构建方面,本文的情感词典在五种情绪下的准确率、召回率和F值都超过了80%;在文本情绪和情感分类方面,比较了大连理工大学情感词汇本体库、How Net等通用情感词典,实验结果表明,该方法生成的情感词典获得了较好的评价效果,能够很好地覆盖微博数据。