论文部分内容阅读
现有的基于神经网络的自然语言处理模型依赖于大量目标域内的标记数据进行训练,然而,为低资源目标域收集足够的训练数据通常是昂贵且耗时的。文本序列的迁移学习方法通过将一些在不同但相关的任务或领域的源域中已经获得的知识直接迁移到感兴趣的目标域来提高目标任务的表现,与单任务方法相比具有直接的优势。虽然迁移学习在文本序列的处理上已取得了不错的进展,但是仍面临一些问题,包括不同领域间“迁移什么”和“如何迁移”。“迁移什么”研究的是不同领域之间可以进行迁移的知识是什么,“如何迁移”研究的是找到可迁移的对象后如何将其提取和迁移到目标领域,针对这两个问题,本文从文本序列的知识表示和文本序列的迁移机制展开研究,主要内容有:
(1)对文本序列知识表示的研究。文本序列的知识表示主要解决不同领域间迁移什么的问题,重点研究可以进行迁移的通用知识表示。对于序列问题而言,可以进行迁移的知识,是不同领域的要素间通用的内在表示,其特征具有一般性。基于此,提出将关系网络(Relational Network , RN )集成到瓦瑟斯坦自动编码器(Wasserstein Autoencoder,WAE)中,用于学习文本序列的潜在表示。在该模型中,隐性知识可以被更多地学习和利用,从而产生结构化的语义表示。在机器翻译和命名实体识别上的大量实验表明,所提模型优于现有的方法。
(2)对文本序列迁移机制的研究。文本序列的迁移机制主要解决不同领域间通用知识如何进行迁移的问题,研究如何将在源域学得的通用知识迁移到目标域,以促进目标域的学习性能。为了解决这个问题,提出一种在多任务框架基础上对可迁移的共享抽象知识(Shared Abstract Knowledge,SAR)进行显式建模的方法,用于跨领域学习文本表示。在该模型中,从不同领域学习到的共享公共知识表示会被映射到一个公共的瓦瑟斯坦空间,利用瓦瑟斯坦距离来最小化分布距离,提高分布相似性,同时,抽象标签的词嵌入信息也会被显式地利用,用于分离公共信息中的抽象部分,促进对公共抽象知识的学习。实验结果表明,所提方法可以有效地从源域提取公共的抽象信息,在跨域命名实体识别数据集上取得了最优的效果。
综上,文本序列的知识表示和文本序列的迁移机制很好地解决了不同领域间迁移什么和如何进行迁移的问题。与现有文献相比,显著提升了翻译和实体识别任务的性能,表明了理论方法的可行性和模型的有效性。
(1)对文本序列知识表示的研究。文本序列的知识表示主要解决不同领域间迁移什么的问题,重点研究可以进行迁移的通用知识表示。对于序列问题而言,可以进行迁移的知识,是不同领域的要素间通用的内在表示,其特征具有一般性。基于此,提出将关系网络(Relational Network , RN )集成到瓦瑟斯坦自动编码器(Wasserstein Autoencoder,WAE)中,用于学习文本序列的潜在表示。在该模型中,隐性知识可以被更多地学习和利用,从而产生结构化的语义表示。在机器翻译和命名实体识别上的大量实验表明,所提模型优于现有的方法。
(2)对文本序列迁移机制的研究。文本序列的迁移机制主要解决不同领域间通用知识如何进行迁移的问题,研究如何将在源域学得的通用知识迁移到目标域,以促进目标域的学习性能。为了解决这个问题,提出一种在多任务框架基础上对可迁移的共享抽象知识(Shared Abstract Knowledge,SAR)进行显式建模的方法,用于跨领域学习文本表示。在该模型中,从不同领域学习到的共享公共知识表示会被映射到一个公共的瓦瑟斯坦空间,利用瓦瑟斯坦距离来最小化分布距离,提高分布相似性,同时,抽象标签的词嵌入信息也会被显式地利用,用于分离公共信息中的抽象部分,促进对公共抽象知识的学习。实验结果表明,所提方法可以有效地从源域提取公共的抽象信息,在跨域命名实体识别数据集上取得了最优的效果。
综上,文本序列的知识表示和文本序列的迁移机制很好地解决了不同领域间迁移什么和如何进行迁移的问题。与现有文献相比,显著提升了翻译和实体识别任务的性能,表明了理论方法的可行性和模型的有效性。