论文部分内容阅读
随着社会媒体的快速发展,网络中涌现出大量带有情感的主观性评论文本,例如微博、博客、购物网站在线评论、旅游及汽车网站评论等。挖掘这些评论文本中隐含的观点和情感,对公共安全服务、电子商务和社情舆情监控等应用至关重要。然而,社会媒体中主观性文本的表达形式具有丰富性、网络文本数据具有复杂性、所属领域具有多样性、数据来源具有多源性。针对这些特性,显式的、通用的情感词典存在无法直接判断文本中隐含的、丰富的情感特征问题;传统有监督学习模型存在不能很好地处理不相关训练数据的问题;仅使用目标领域的带标签数据,将存在特定领域的数据量偏少的问题。为了解决以上问题,本文借助了情感传播和迁移两种机制,针对词语级到文档级、领域内到领域间两种层次的情感分类任务,开展了微博特定领域的情感词典构建、三层情感传播模型的建立,分组提升集成方法、集成深度迁移方法和多源领域适应联合学习框架等跨领域的情感分类方法的研究。本文的主要研究内容和成果可概括如下:
(1)基于情感上下文传播的特定领域情感词典构建方法。情感词典的构建是情感分析中一个基本和重要的任务。由于情感词汇与领域具有较大的依赖性,不同领域的情感词在表达和用法上也存在差异。针对微博特定领域情感词典的建立任务,本文假设词语的语义与上下文词汇的语义具有一致性,提出了一种面向中文微博的显式和隐式情感词抽取方法,并应用到微博情感分类任务中。该方法首先从微博中抽取情感单元作为表达情感的基本元素,使用社会关系和局部上下文确定情感单元之间的关系,利用情感传播算法得到显式和隐式情感特征的情感分值。通过实验,验证了特定领域词典的有效性,同时微博情感分类性能有一定提升。
(2)基于文档、主题和词的三层文本情感传播模型。评论文本中的情感蕴含在不同的主题和词之下,且有强弱之分。为了挖掘描述文本的情感倾向及其情感强度,需要为每个文本估计一个准确的情感分值。本文假设情感邻居在情感传播网络中具有相同的情感极性和相似的情感强度。为此,提出了一种利用文档、主题和词之间语义关系的三层情感语义传播方法。该方法在情感传播网络中依次实现文档、主题和词的情感传播过程,并通过连续的迭代得到文档的稳定情感分值。在多个领域的情感数据集上的实验结果表明,使用情感强度作为模糊隶属度以及权重训练模糊支持向量机模型,可以有效解决不相关训练样本带来的敏感问题。
(3)基于分组提升集成的单源跨领域文本情感分类方法。由于文本具有领域多样性,而不同领域中拥有的标注样本不尽相同。针对跨领域文本情感分类任务中目标领域带标签文本数量偏少的问题,本文提出了一种基于分组提升集成的跨领域文本情感分类方法。首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据。在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据。在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器。通过实验验证了初始标签标注算法可以解决目标领域带标签数据量不足的问题,数据分组集成策略可以解决迁移过程中源领域与目标领域数据量失衡所引起的分类器偏置问题。
(4)基于集成深度迁移学习的多源跨领域情感分类方法。虽然文本所属的领域不同,但是其知识之间仍存在某种共性和交叉。当目标领域缺乏标注数据,其他多个源领域的标注数据比较充足时,可以使用多个源领域的数据辅助目标领域的跨领域情感分类任务。为此,本文结合集成学习和深度迁移学习的优势,提出了一种多源信息融合的集成深度迁移学习方法。该方法利用深度迁移学习实现特征提取和模型迁移,有效提升了跨领域的特征表示能力。为了充分利用所有源领域信息,我们采用集成学习框架对训练好的迁移学习模型进行集成,实现多源情感信息的融合。实验结果验证了集成深度迁移学习方法通过深度特征抽取和模型迁移,以及采用集成学习对源领域数据进行加权处理,可以有效地避免负迁移,并提升了跨领域情感分类的准确率。
(5)基于多源领域适应联合学习的多源跨领域情感分类方法。已有的领域适应方法往往只关注于单个源领域到目标领域,且样本规模普遍较小。为了有效利用和融合多个领域的情感知识,本文针对多源跨领域情感分类任务,提出了一种新的多源领域适应联合学习方法。该方法利用双向门循环单元和卷积神经网络进行深度特征提取,采用软参数迁移的方法进行领域参数共享。在考虑情感分类损失的同时,还考虑了领域融合损失。通过实验表明,多源领域适应联合学习能够在目标领域数据有限的条件下,可以更好地实现情感迁移,提升泛化能力。
(1)基于情感上下文传播的特定领域情感词典构建方法。情感词典的构建是情感分析中一个基本和重要的任务。由于情感词汇与领域具有较大的依赖性,不同领域的情感词在表达和用法上也存在差异。针对微博特定领域情感词典的建立任务,本文假设词语的语义与上下文词汇的语义具有一致性,提出了一种面向中文微博的显式和隐式情感词抽取方法,并应用到微博情感分类任务中。该方法首先从微博中抽取情感单元作为表达情感的基本元素,使用社会关系和局部上下文确定情感单元之间的关系,利用情感传播算法得到显式和隐式情感特征的情感分值。通过实验,验证了特定领域词典的有效性,同时微博情感分类性能有一定提升。
(2)基于文档、主题和词的三层文本情感传播模型。评论文本中的情感蕴含在不同的主题和词之下,且有强弱之分。为了挖掘描述文本的情感倾向及其情感强度,需要为每个文本估计一个准确的情感分值。本文假设情感邻居在情感传播网络中具有相同的情感极性和相似的情感强度。为此,提出了一种利用文档、主题和词之间语义关系的三层情感语义传播方法。该方法在情感传播网络中依次实现文档、主题和词的情感传播过程,并通过连续的迭代得到文档的稳定情感分值。在多个领域的情感数据集上的实验结果表明,使用情感强度作为模糊隶属度以及权重训练模糊支持向量机模型,可以有效解决不相关训练样本带来的敏感问题。
(3)基于分组提升集成的单源跨领域文本情感分类方法。由于文本具有领域多样性,而不同领域中拥有的标注样本不尽相同。针对跨领域文本情感分类任务中目标领域带标签文本数量偏少的问题,本文提出了一种基于分组提升集成的跨领域文本情感分类方法。首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据。在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据。在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器。通过实验验证了初始标签标注算法可以解决目标领域带标签数据量不足的问题,数据分组集成策略可以解决迁移过程中源领域与目标领域数据量失衡所引起的分类器偏置问题。
(4)基于集成深度迁移学习的多源跨领域情感分类方法。虽然文本所属的领域不同,但是其知识之间仍存在某种共性和交叉。当目标领域缺乏标注数据,其他多个源领域的标注数据比较充足时,可以使用多个源领域的数据辅助目标领域的跨领域情感分类任务。为此,本文结合集成学习和深度迁移学习的优势,提出了一种多源信息融合的集成深度迁移学习方法。该方法利用深度迁移学习实现特征提取和模型迁移,有效提升了跨领域的特征表示能力。为了充分利用所有源领域信息,我们采用集成学习框架对训练好的迁移学习模型进行集成,实现多源情感信息的融合。实验结果验证了集成深度迁移学习方法通过深度特征抽取和模型迁移,以及采用集成学习对源领域数据进行加权处理,可以有效地避免负迁移,并提升了跨领域情感分类的准确率。
(5)基于多源领域适应联合学习的多源跨领域情感分类方法。已有的领域适应方法往往只关注于单个源领域到目标领域,且样本规模普遍较小。为了有效利用和融合多个领域的情感知识,本文针对多源跨领域情感分类任务,提出了一种新的多源领域适应联合学习方法。该方法利用双向门循环单元和卷积神经网络进行深度特征提取,采用软参数迁移的方法进行领域参数共享。在考虑情感分类损失的同时,还考虑了领域融合损失。通过实验表明,多源领域适应联合学习能够在目标领域数据有限的条件下,可以更好地实现情感迁移,提升泛化能力。