论文部分内容阅读
文本规范化又称文本标准化或文本正则化,是一个将非标准化的文本转化为标准化的书面文本的任务和过程。在自然语言处理中,文本作为分析的主要载体,其标准化有助于后续分析任务的顺利进行,因此文本规范化已然成为许多自然语言处理任务首要面临的数据预处理环节。随着第三次人工智能浪潮的兴起,近几年各界对于计算机视觉、自然语言处理等领域的科研与应用的进展如火如荼。其中基于文本的语音合成(Text to Speech,简称TTS)是现代自然语言处理的一个重要方向,而在语音合成过程中,必须在书面文本数据生成语言建模数据之前进行文本规范化。相对于语音合成整个任务流程来说,文本规范化只是其中一个组成部分,但是许多时候TTS系统感知质量下降的一个主要原因可以追溯到文本的非标准化。除此之外,随着近几年社交平台的出现与流行,在舆情数据的统计分析过程中需要对社交文本进行规范化,因此对于社交媒体文本的规范化工作也是一个新的研究方向。文本规范化的关键点在于寻找需要规范化的非标准词以及如何将其规范化为符合上下文语义的标准词。目前,针对以上难点该领域已有的一些解决方法包括:(1)构建映射词典、(2)基于规则、(3)拼写修正、(4)序列标注、(5)机器翻译。然而除了机器翻译之外,其余方法都有较大实现上的缺陷:构建映射词典的方法可能面临词典外的词汇问题(OOV问题);基于规则的方法包含了庞大数量的规则、设计复杂;拼写修正需要实时计算词汇之间的相似性、效率较低;序列标注难以确定候选规范词集合。机器翻译借助词对齐(Word alignment)可以对非标准词-标准词关系中的一对多、多对一和多对多映射进行建模,较好地解决文本规范化中难以融入上下文信息的一词多义问题。本文借鉴深度学习使用序列到序列(Seq2Seq)框架解决机器翻译问题的方式,在此基础上提出了基于局部注意力机制GRU的文本规范化模型(LATN)以及基于自注意力机制Transformer与多任务学习的文本规范化模型(TransformerMTL)。前者的主要特点是利用注意力窗口配合GRU提取关键局部特征值,并且局部的注意力窗口还可以减少训练时间上的消耗;后者的主要特点是利用Transformer弥补RNN无法同时获取上下文状态的劣势以及可以并行化训练的优势、配合待规范化词的词所属类型分类的辅助任务进行多任务学习。本文使用谷歌Sproat科学家团队在Kaggle竞赛Text Normalization中提供的数据集En Baseline,进行了模型训练和评估实验,以此来验证模型的有效性。在评估实验中,将本文提出的两个模型在对应测试数据集上测试,并与之前的研究者发表的结果进行比较,取得了较好的效果;其中Transformer-MTL模型对于待规范化词的规范化结果与其所属类型表现出一致性,说明模型具有一定的可解释性。