论文部分内容阅读
随着社交网络的逐渐成熟和移动终端技术的迅猛发展,微博作为一种新型的社交媒体和信息交流平台,使人们能够更加方便地点评热点事件和表达自己的情感。用户通过微博发布的信息中包含着不同趋向的情感特征,深度挖掘这些特征对于舆情监控、市场营销、谣言控制都有着重要意义。传统的文本情感分析只能判别情感倾向,即褒贬性,这远没有达到意见挖掘的目的,而且微博短文本与普通文本有很多不同,如未登录词增多、文法不规范、数据稀疏等问题。因此,研究面向微博短文本的细粒度情感分析方法十分必要。本文以将微博划分为无情感、愤怒、厌恶、恐惧、高兴、喜好、悲伤和惊讶等8类情感为研究目标,分别从基于规则的情感计算和基于统计模型的情感分类两个角度展开了细粒度情感分析研究,主要研究内容包括以下几个方面:(1)设计了3种微博采集方案,并对微博短文本预处理技术进行了研究。深入分析了微博采集和普通网页采集的区别与共通点,分别实现了基于新浪API、基于微博爬虫和基于百度微博搜索的微博采集方法;并根据中文微博的特点分别从微博交互信息过滤、繁体字转换、微博分词等角度实现了对微博短文本的预处理方法。(2)设计并构建了中文微博情感词典。借鉴心理学情感划分的研究,将情感词的类别划分为喜、怒、惧、恶、惊、爱、愁等7类情感。采用不同的策略对现有的情感资源的情感词进行了细粒度情感分类改造,并完成了网络词语和微博表情符号的扩展,构建了适用于细粒度情感分析的中文微博情感词典。通过对比实验,表明该词典的效果较好。(3)提出了一种基于情感词语义加权的微博情感分析方法。以中文微博情感词典为基础,根据细粒度情感分析的特点,发现了以往情感词语义加权方法应用到细粒度情感分析的不足,提出了指数情感词语义加权的方法,并结合对程度副词、关联词、否定词的处理规则,实现了基于规则的细粒度情感计算方法。(4)提出了一种基于多特征融合的微博情感细分类方法。从中文微博的情感表达特点出发,微博短文本经过预处理后,抽取了6大类情感语义特征;为解决短文本的数据稀疏问题,又针对每一类特征设计了不同的特征权重计算方法。特别是指数情感权重的应用,将几万维的向量空间映射到了7维,实验表明,该方法构建的情感向量空间模型能够有效地保留微博短文本的情感信息。(5)综合上述研究成果,设计并实现了微博情感挖掘系统。并利用该系统参加了第二届自然语言处理与中文计算会议(NLP&CC2013)评测和第五届中文倾向性分析评测(COAE2013),均取得了优异的成绩,验证了该系统的稳定性和本文所提方法的有效性,完成了对中文微博情感挖掘的初步探索。(6)最后,针对中文情感标注资源严重缺乏的现状,对跨语言情感分类方法进行了探索性研究,提出了一种基于支持向量机的跨语言情感分类方法。