论文部分内容阅读
传统文本情感分析,通常从文本(可以是文档、段落或句子)整体出发,判断其情感极性或情感强度,是一种粗粒度的情感分析,忽视了由不同目标(情感附着物)所造成的情感极性偏差。因此,本文研究目标依赖的细粒度文本情感分析,旨在分析文本中特定目标的情感。例如,在产品评论中,该目标可以是笔记本电脑(产品)的各个属性,如“价格”、“电池”或“性能”等。本文第一部分工作采用传统机器学习方法,针对不同领域中不同类型的目标进行细粒度的情感分析。具体地,本文的第一个工作是对笔记本电脑和餐厅的产品评论文本,以产品的实体属性为目标,采用自然语言处理和机器学习方法,构建实体属性依赖的细粒度情感分类模型。该工作应用于2016年国际标准语义评测SemEval基于属性的情感分析子任务中,获得了第三名的成绩,相关论文发表在2016年的SemEval会议。本文的第二个工作是对金融领域的推特和新闻数据,以公司股票为目标,采用精心设计的特征结合机器学习方法,构建股票依赖的细粒度情感强度预测模型。该模型在2017年SemEval的金融领域细粒度情感分析子任务中,取得了第一名的成绩,相关论文发表在2017年SemEval会议。采用传统自然语言处理和机器学习方法具有很强的领域依赖性,需要专家领域知识精心设计抽取特征,系统迁移性差。因此,本文第二部分工作提出一个新的基于门和关注机制的双向长短期记忆神经网络模型,解决多领域目标依赖的细粒度文本情感分析问题,该模型应用于产品评论和金融领域,在两个领域的性能均优于传统机器学习方法。这一工作发表在2017年的KSEM(CCF-C类)会议。本文针对多个领域(笔记本电脑、餐厅、金融股票)不同来源(产品评论、推特、新闻)的评论数据集,从不同的粒度(粗粒度情感极性、细粒度情感强度)采用多种方法(机器学习、深度学习)进行大量的实验。实验结果表明,本文提出的机器学习和深度学习模型,能有效解决目标依赖的细粒度文本情感分析问题。