论文部分内容阅读
随着网络评论文本的爆炸式增长,评论中承载了大量的用户情感信息,分析评论的整体倾向性已经不能满足当前用户的需求,迫切需要更细粒度属性层面的情感分析,并且由于用户表达随意性造成的分词准确率过低,情感要素抽取准确率低和隐式情感信息丢失等问题也急需解决。本文首先对垃圾评论过滤和中文分词两种文本预处理任务进行了分析;其次基于CRFs模型对情感要素进行抽取,补充隐式情感对象后聚合处理;然后提出一种对聚合后特征类的对立观点进行情感强度分析的算法。本文研究内容有以下四个部分:(1)针对文本预处理问题,基于构建的评论特征分类来识别垃圾评论,并构建用户词典改善中文分词本文首先基于构建的评论特征进行文本分类,包括主客观文本分类,过滤掉垃圾观点信息评论数据,保留真实有价值的评论文本信息进行情感分析任务,并进行意群划分,便于后续语义情感聚合处理;中文分词采用NLPIR分词系统,基于新词、网络词汇和领域术语类关键词等未登录词构建用户词典,既可以纠正分词错误,提高情感对象抽取的准确率,又可以作为情感词典的补充,减少用户情感信息的丢失。(2)基于CRFs模型抽取情感要素,将情感对象、情感词及情感修饰词的联合识别任务转化为结构化序列标注任务采用条件随机场模型联合识别情感要素,首先选取特征构建特征模板和标注集,然后基于CRFs联合识别情感要素,利用显式情感对象-情感词对和评论语料中标签集组成的产品特征观点对构建训练文档,采用朴素贝叶斯分类器识别隐式情感对象,最后通过词义代码实现情感对象聚合,改进特征稀疏性问题。(3)提出了基于语境情感消岐的对立观点情感强度分析算法本文首先依据情感词的动态极性定义了情感歧义词,利用关联规则挖掘情感歧义词语搭配集,PMI剪枝过滤后构建出情感歧义词搭配词典,然后介绍了构建的网络词典及情感修饰词典等,提出了对立观点情感强度计算的方法,最后依据情感强度生成对立观点情感摘要完成细粒度情感分析,实验表明了本文词典构建及情感强度计算方法的有效性。(4)设计并实现了评论文本细粒度情感分析系统本文实现了细粒度情感分析系统,该系统各功能模可以完成评论采集、垃圾评论过滤、中文分词、情感要素抽取和细粒度情感分析全过程,并最终提供给用户直观的包含对立观点强度信息的细粒度分析结果。