论文部分内容阅读
在现代社会中,随着互联网和新媒体的飞速发展,微博呈现爆发性的增长,越来越多的人开始使用微博。在微博上,人们可以实时发布消息来表达对现实生活中各种问题的观点看法,讨论当前热点话题,共享信息资源等。微博用户之间通过相互关注,相互转发和评论使微博中的信息丰富,因而形成了海量的微博情感信息。对微博中的信息进行倾向性分析,分析出微博用户对重大事件、企业产品的观点看法,对网络舆情预警与分析、市场产品调研和市场营销等应用有着十分重要的意义。现有的中文倾向性分析主要集中在产品评论、新闻报道等领域,而微博作为新兴的社交网络媒体,目前针对微博的倾向性分析还是采用原有的倾向性分析方法,缺少对微博相关特征的分析。本文针对微博的特点,研究工作主要包含如下三个方面:1.针对微博短文本的语言特点,提出了融合互信息的改进N-Gram微博新词发现方法。微博是一种极其活跃且口语化的语言,每天都会有很多新词产生,这些新词往往带有一定的情感倾向。本文针对微博中新词的特点,提出了一种融合互信息和N-Gram微博新词发现算法,通过N-Gram算法从微博语料中抽取字符串作为候选特征字,同时计算其互信息来合并候选特征词,从而识别出语料中的新词。实验结果表明,该方法对新词的识别具有较好的效果,可应用于微博的新词发现。2.针对微博中表情符号的特点,提出了基于统计的微博表情符号词典构建方法。表情符号是一种十分重要的情感表达形式,已成为微博中人们交流沟通的重要方式。本文根据微博中表情符号的相关特点,提出了一种基于统计的表情符号词典构建方法,根据对微博语料中与表情符号相邻的文本的情感分析,从而确定表情符号的倾向性,进而完成表情符号词典的构建。实验结果表明,使用表情符号词典提高了微博倾向性分析的准确性,达到了较好的实验效果。3.针对中文微博的特点,提出融合表情符号和微博新词的微博文本倾向性分析算法。本文在结合新词发现算法和构建的微博表情词典,提出了一种融合表情符号和微博新词的微博文本倾向性分析算法。该算法以微博文本中的情感倾向元素以及相关的语法特征作为情感倾向信息,在原有的以情感词、程度副词、否定词为主的传统情感词典基础上,针对用户的使用习惯及微博语言特征,添加了表情符号和网络新词,以有效地提升微博倾向性分析的准确度。与此同时,本算法还对微博文本中句子的结构、所处的位置等信息进行分析,从而更好的获得微博消息的情感倾向值。