论文部分内容阅读
文本复述任务在自然语言处理领域具有重要的研究价值,已经被运用到问答对话、机器翻译、对抗样本生成等下游任务中。随着深度学习在文本生成领域取得的成功,文本复述也从基于规则模板的条件匹配逐渐迁移到基于深度学习的复述文本生成任务上。复述生成任务可类比于翻译任务,只不过复述生是成同一语言空间下的语义不变性映射,因此最早期的研究将机器翻译的序列模型应用到了复述生成任务,并取得了不错的进展。然而在实际应用场景下,通常要求复述句与原句具有一定的表述差异性,而基于翻译模型生成的复述句通常与原句极为相似,难以实现差异性和多样性复述文本生成。为了解决上述问题,有必要研究语法可控的复述生成模型,选取多样化的语法结构来指导模型生成复述句。针对这一问题,本文研究了基于有监督学习的语法可控复述生成方案,对已有模型展开实验对比并提出改进方案,通过主观和客观评测的多种评估指标验证了模型的有效性;此外,为了适应多种语言场景,解决平行语料数据不足的问题,本文针对无监督学习的语法可控复述生成模型展开研究,以实现泛化性更强的复述生成方案。总体来说,本文的核心贡献主要有三个方面:(1)将基于语法可控深度学习复述模型运用到中文领域。目前关于中文复述生成的研究主要集中于利用规则或者模板来实现,而应用深度学习进行复述生成的研究主要集中于英语和日语,缺乏基于中文的复述生成模型。本文则研究在中、英文场景下的复述生成模型,按照词粒度和字粒度针对这两种语言场景进行特征构造和模型训练,经过合理的预处理与参数调节,使得模型在中文复述生成任务上也取得了不错的效果。(2)研究无监督学习模型以提高模型的泛化能力。有监督学习模型依赖平行语料进行训练,无法在大规模语言场景下实现有效的复述生成,模型在不同语言场景下的可移植性较差。为了研究多样性的复述生成方案,本文在已有模型的基础上,对无监督学习的语法可控复述生成模型进行优化和改进,并验证了模型在多种语言场景下的泛化能力。(3)构造了基于语法结构的中英完备数据集。模型训练需要大量的平行语料以及对应的语法树,为了适应多种语言场景,本文搜集了新闻咨询、影评、小说等多种语言场景的数据集,并利用工具获取句子对应的序列化语法树结构,在多种场景下构建了基于中文和英文的平行语料。综上所述,为了解决复述生成技术存在的问题,提高复述文本的多样性和差异性,本文主要研究基于语法属性可控的复述生成技术,构造了基于语法结构的完备数据集,研究了基于有监督学习和无监督学习两种复述生成模型,在中英文两种语言场景下进行特征构造和模型训练,在多种指标下与基准模型进行对比,模型在多种语言场景下的均有显著的提升。