论文部分内容阅读
随着互联网的广泛普及,网络已经成为人们获取信息、共享信息的主要途径。微博作为一种新兴的互动交流平台,也逐渐成为人们网络生活的一部分,面向微博文本的相关研究受到越来越多学者的关注。面向微博的情感分析是微博相关文本分析中的一个重要的课题,而中文微博的情感信息抽取作为中文微博情感分析的基础任务,受到研究者的广泛关注,逐渐成为一个热门的研究方向。中文微博的情感信息抽取的目的在于将无结构的情感文本转换成有结构的文本——情感信息单元,不但可以直接应用于用户评论分析与决策等方面,而且可以服务于其它情感分析任务,如文本情感分类。其中情感信息单元包括评价对象、评价词语、极性及观点持有者四个元素。然而,由于微博文本语言表达随意,大多数微博文本的句法结构都是不完整的,且具有大量的冗余信息和网络词汇,采用原有文本意见挖掘方法进行抽取信息的效果并不理想。因此需要结合微博自身特点,对现有技术进行改进以便抽取微博情感信息,主要研究内容包括以下几个方面:(1)中文微博评价对象候选集的构建。结合中文微博文本的特点,对微博文本进行预处理,利用句法分析获取名词短语,对名词短语进行后处理,再构建包括名词、名词短语以及微博话题在内的评价对象候选集,并对该步骤的实验结果进行分析。(2)中文微博候选评价对象的筛选。采用3种策略实现候选评价对象的筛选:首先,采用SVM模型筛选候选评价对象,通过采用语义角色信息、最小距离和词频三个特征,实现SVM模型分类器对候选评价对象进行筛选;其次,采用加权模型筛选候选评价对象,根据不同特征,计算候选评价对象的权重分数,从而判别其是否为正确的评价对象。最后,基于CRF模型善于解决序列标注问题的特点,引入常用的情感信息抽取特征,以及情感词、语义角色标注等特征,采用CRF模型对候选评价对象进行筛选。(3)评价对象的极性判别。若评价对象附近存在情感词,则寻找距离评价对象最近的情感词,根据情感词表,判断评价对象的情感极性;若评价对象附近不存在情感词,则用微博句子的情感极性代替评价对象的情感极性,其中微博句子的情感极性通过朴素贝叶斯分类器得到。(4)综上研究内容,设计并实现了中文微博情感信息抽取系统。该系统可用于对评价对象候选集的构建方法、候选评价对象的筛选方法以及极性判别方法进行实验结果分析,也可实际用于情感信息的抽取任务。