论文部分内容阅读
随着在线社交网络的兴起,大量的用户在互联网上发表文字表达自己的情感,其中既包含对生活、事件的情绪抒发,又包含对产品各个方面的使用体验和评价。这些情感表达为文本情感分析研究提供了数据基础。文本情感分析研究人们在文本中表达的情感、态度、观点、情绪。细粒度情感分析是其中一个细分领域,研究细粒度的情感。细粒度情感分析在任务定义上、数据准备上、方法有效性上,依然面临着很多困难和挑战。首先,针对细粒度情感极性的文本情绪分类研究,可用于抽取文本中的情绪,相关研究在舆情监控中有较大的应用价值。此前的情绪分类研究假设了文本中只有一种情绪,本文发现了社交网络文本中包含多种情绪的现象。如何识别文本包含的所有情绪种类,尤其针对短文本的场景,是具有挑战的。其次,如何将多种情感和方面对应起来,此为方面级情感分析问题,这是针对细粒度情感对象的研究,它可进一步分为两类:针对方面词和针对方面类别的情感分析。如何设计统一的方法,同时解决两种方面级情感分析问题具有挑战性。此外,方面级情感分析研究假设了文本中仅包含一种实体,然而社交网络中,存在对多个实体、多个方面表达出多种情感的现象,如何有效建模、如何设计方法解决该问题也存在挑战。最后,针对复杂文本上深度学习模型效果表现不佳的现象,如何把语言学资源和端到端的深度学习模型相结合,提升复杂文本上的效果表现,也是一个有挑战的问题。针对细粒度情感分析的相关问题和挑战,本文的主要工作有:1.本文针对短文本上存在多种细粒度情绪共存的现象,研究了短文本多标签情绪分类问题,识别文本包含的各种情绪。针对短文本稀疏性、接近重复性、不规范性,提出了三阶段的MEC方法。本文充分利用情绪表情符、标点表情符和一个小而准的情绪词典为微博短文本产出情绪类别标签,构建了大规模、多标签、短文本情绪分类数据集。MEC算法通过对文本粒度情绪信息和词粒度情绪信息建模,在单标签评估指标和多标签评估指标下,均取得了比基线方法明显的提升。实验验证了本文的方法在两种心理学理论下均表现出不错效果且效果稳定。利用MEC算法,本文进一步做了应用研究,发现情绪受事件影响,多种情绪间是有联系的,日常情况下高兴和兴奋紧密关联,灾难发生后悲伤和愤怒、恐惧有密切联系。2.本文进一步研究情感和方面的对应,即方面级情感分析问题。方面级情感分析可细分为针对方面词和方面类别的情感分析。本文的思路是使用统一的方法解决两种方面级情感分析问题,并提出了既优化上下文表示、又优化方面表示的方法CAM。CAM算法通过互动层、基于位置的注意力机制、循环神经网络层获得有效的上下文表示,利用上下文信息多轮次地更新方面表示向量,获得针对特定方面的文本向量表示,之后通过预测模块预测出情感极性。实验显示,CAM算法相比仅优化上下文表示或仅优化方面表示的方法,在两种问题的效果上都有提升。进一步研究发现,适当的模型深度可以获得有效的信息抽象,过多或过少的深度会影响模型效果。3.针对实际场景中存在对多个实体、多个方面表达出多种情感的现象,本文研究了实体方面级情感分析问题,识别针对每个实体的每个方面的细粒度情感,而方面级情感分析是文本中只有一种实体时的特例。本文提出CEA方法解决该问题,它建模了上下文表示、实体表示和方面表示。实验验证了CEA方法比基线方法获得了显著的效果提升。本文还验证了模型可以在训练数据匮乏的(实体,方面)组合上表现出出色的结果,意味着在实际应用中,数据标注工作可以大幅简化。4.针对实体方面级情感分析中,端到端的深度学习模型在复杂文本上效果表现不佳的现象,本文提出把深度学习和依存句法分析结合起来,提升复杂文本上的预测效果。本文提出了DT-CEA方法,利用依存句法分析中的依存连接关系、依存方向、依存类型三种信息,提升模型效果。具体体现在,一方面使用了基于依存树的距离,使得基于位置的注意力层可以有效解决长定语、长插入语造成的注意力分配偏差;另一方面,本文构建了依存门,控制依存信息在长短期记忆模型中的保留程度。实验表明,DT-CEA将依存句法信息融入模型,可以有效地提升效果,尤其是在长文本、复杂文本上,DT-CEA的优势格外明显。