论文部分内容阅读
拼写错误是很多语言中常见的问题,也是很多自然语言处理任务中的一个重要模块。网络的普及让信息泛滥,人们被大量的信息淹没,变得只注重效率,而不注重拼写的是否正确。在这样的背景下,文本的错误特别是网络文本或口语文本的拼写错误变得更加严重,文本校正技术有助于缓解这一问题。与此同时,搜索引擎、机器翻译等应用的普及使得拼写校正任务变得更加重要。英语的拼写校正经过学者们多年的研究,已经取得了一些成果。但是,传统的方法在语言信息的利用、整句的校正和语言的可扩展性等方面仍有缺陷。本文研究了基于判别式的拼写校正技术,提出了一个基于序列标注和重排序的双层拼写校正模型,实用性高,扩展性强,同时把该模型用于机器翻译任务中去。 本文的研究主要分为三个部分:基于序列标注的上下文无关拼写校正,基于重排序的上下文相关拼写校正,以及拼写校正在机器翻译中的应用。 具体的说,本文研究的内容主要如下: 1.基于序列标注的上下文无关拼写校正 重点研究无上下文的孤立词的拼写校正问题,通过捕捉词内基本单位之间的联系,把孤立词的校正转化一个序列标注问题,通过判别式训练,提取词内特征,对词内每个基本单位预测可能的标注,最后通过解码约束得到整个词的校正候选,选择其中分数最高的作为校正结果。本文提出的基于序列标注的模型在英语、维语、蒙语等语言上都做了实验,校正性能超过了传统方法,并表现出较强的可扩展性。 2.基于重排序的上下文相关拼写校正 重点研究基于上下文信息的拼写校正问题,在第一层模型为每个词产生候选的基础上,通过感知机判别式训练,提取上下文语言特征,在句子级上进行重排序。解码时,利用已训好的参数和non-local特征[22]进行快速解码,找出一条最优的句子路径。本文提出的双层模型在英语上做了实验,实验表明我们的模型可以超过传统的噪声信道模型,同时,双层模型的结合能够在句子级进行整句的拼写校正,同时保持较低的误报率,可以有效减少OOV数量,具有很大的实用价值。 3.拼写校正在机器翻译中的应用 我们将提出的拼写校正技术应用到机器翻译中,一方面,我们通过把拼写校正技术直接作为预处理工具,对开发集、测试集分别做预处理之后再进行传统的翻译流程。另一方面,我们通过把拼写校正生成的lattice加入到解码过程,由翻译解码器从中挑选一条最优路径。实验表明,我们的拼写校正模型有效地缓解了OOV现象,提高了机器翻译性能。