论文部分内容阅读
情绪分析是一种细粒度的情感分析任务。基于机器学习方法的情绪分析任务旨在训练机器学习模型,将输入文本自动标注以预先定义好的情绪类别(即情绪分类任务),或是将输入文本自动标注以情绪分数(即情绪回归任务)。异构文本是指包含两个或多个不同语言、不同领域、或拥有不同标注体系语料的集合。传统的情绪分析任务若要取得良好的效果,需要利用大规模的单语、单领域、单一标注体系的语料库来进行模型的训练,而这样的语料往往难以获取。因此,如何建模异构文本间的关系,利用大规模异构文本来训练情绪分析模型,从而缓解语料不足的问题,一直以来是情绪分析研究的重点和难点。
本文主要研究面向异构文本的情绪研究方法,并从三类常见的异构文本:跨语料库文本、跨语言文本、以及跨领域文本出发,探索上述三类异构文本间关系的构建方法,并在此基础上利用异构文本进行情绪分析任务的研究。具体来说,本文的工作可以归纳为以下三点:
(1)跨语料库的情绪分类方法研究
由于缺乏一个公认的情绪分类标注体系,现有的情绪分类语料库往往采用不同的情绪分类体系,而这些情绪分类体系包含不同的情绪类别,导致一个情绪分类语料库中的语料无法直接合并到另一个采用了不同情绪分类体系的语料库上。针对这个问题,本文首先提出了一个新任务:语料库融合,并使用整数线性规划的方法来解决这个任务。本文首先利用整数线性规划的限制条件来构建不同语料库分类体系之间的关系,之后在两个采用了不同情绪分类体系的语料库上独立地训练两个分类器,最后使用整数线性规划对两个分类器在同一个测试集上的分类结果进行优化。实验表明,相比于在单一语料上训练分类模型,通过整数线性规划能够有效地提升情绪分类任务的精确度。
(2)跨语言的半监督情绪分类方法研究
尽管个别语言下(如英文)的大规模高质量的有标注语料比较容易获取,多数语言下(如中文或其他小语种)有标注语料往往规模较小。因此,如何利用资源丰富的英文语料来帮助其他语言下的情感分析任务一直是该领域的研究热点。本文针对这一问题,提出了一种基于对抗式神经网络的跨语言半监督情绪分类方法。该方法通过在神经网络方法中引入对抗式学习,来利用丰富的有标注英文情绪分析语料和无标注中文语料,更有效地从中学习有用的信息来帮助判别中文文本的情绪类别。实验表明,本文提出的基于对抗式神经网络的跨语言情绪分类方法在两个中文基准测试集上不仅优于传统的有监督方法和半监督方法,更优于近年来最先进的跨语言半监督情绪分类方法。
(3)跨领域的多维度情绪回归方法研究
与情绪分类任务相比,情绪回归任务更适合作为细粒度的情绪分析。情绪回归任务从三个情绪维度:极性、强度、可控性来对输入的文本进行打分。然而,现有的情绪回归研究多为针对单一维度来训练一个或多个回归模型,并未考虑情绪维度之间的关系。针对这一问题,本文提出一种基于对抗式神经网络的跨领域多维度情绪回归的方法。该方法通过对抗学习,既可以从文本中学习更好的针对不同情绪维度的特征,亦可以更好地利用不同领域的文本来辅助本领域的回归。实验表明,本文提出的基于对抗式神经网络的跨语言情绪回归方法在一个大规模多领域情绪回归语料库上的情绪回归性能优于近年来的先进系统的性能。
本文主要研究面向异构文本的情绪研究方法,并从三类常见的异构文本:跨语料库文本、跨语言文本、以及跨领域文本出发,探索上述三类异构文本间关系的构建方法,并在此基础上利用异构文本进行情绪分析任务的研究。具体来说,本文的工作可以归纳为以下三点:
(1)跨语料库的情绪分类方法研究
由于缺乏一个公认的情绪分类标注体系,现有的情绪分类语料库往往采用不同的情绪分类体系,而这些情绪分类体系包含不同的情绪类别,导致一个情绪分类语料库中的语料无法直接合并到另一个采用了不同情绪分类体系的语料库上。针对这个问题,本文首先提出了一个新任务:语料库融合,并使用整数线性规划的方法来解决这个任务。本文首先利用整数线性规划的限制条件来构建不同语料库分类体系之间的关系,之后在两个采用了不同情绪分类体系的语料库上独立地训练两个分类器,最后使用整数线性规划对两个分类器在同一个测试集上的分类结果进行优化。实验表明,相比于在单一语料上训练分类模型,通过整数线性规划能够有效地提升情绪分类任务的精确度。
(2)跨语言的半监督情绪分类方法研究
尽管个别语言下(如英文)的大规模高质量的有标注语料比较容易获取,多数语言下(如中文或其他小语种)有标注语料往往规模较小。因此,如何利用资源丰富的英文语料来帮助其他语言下的情感分析任务一直是该领域的研究热点。本文针对这一问题,提出了一种基于对抗式神经网络的跨语言半监督情绪分类方法。该方法通过在神经网络方法中引入对抗式学习,来利用丰富的有标注英文情绪分析语料和无标注中文语料,更有效地从中学习有用的信息来帮助判别中文文本的情绪类别。实验表明,本文提出的基于对抗式神经网络的跨语言情绪分类方法在两个中文基准测试集上不仅优于传统的有监督方法和半监督方法,更优于近年来最先进的跨语言半监督情绪分类方法。
(3)跨领域的多维度情绪回归方法研究
与情绪分类任务相比,情绪回归任务更适合作为细粒度的情绪分析。情绪回归任务从三个情绪维度:极性、强度、可控性来对输入的文本进行打分。然而,现有的情绪回归研究多为针对单一维度来训练一个或多个回归模型,并未考虑情绪维度之间的关系。针对这一问题,本文提出一种基于对抗式神经网络的跨领域多维度情绪回归的方法。该方法通过对抗学习,既可以从文本中学习更好的针对不同情绪维度的特征,亦可以更好地利用不同领域的文本来辅助本领域的回归。实验表明,本文提出的基于对抗式神经网络的跨语言情绪回归方法在一个大规模多领域情绪回归语料库上的情绪回归性能优于近年来的先进系统的性能。