论文部分内容阅读
在全球化的背景下,英语成为全球最受欢迎的语言之一,ESL(English as Second Language)学习者的数量逐步递增。在听、说、读、写四项基本英语技能中,写作被认为是ESL学习者最难掌握的技能。同时,由于ESL学习者语法知识的匮乏及受母语的影响,语法错误成为写作中最常见的错误之一。语法错误自动纠正(Grammatical Error Correction,GEC )指的是用计算机自动对英语文章中出现的语法错误进行纠正。针对冠词和介词错误,其变化形式有限,混淆集(Confusion Set,CS)为封闭集合,本文提出了一种基于ESL和新闻语料的两层GEC方法。首先,使用ESL语料训练识别模型,判断句子是否存在语法错误。如果存在语法错误,则使用n-gram投票策略进行语法错误纠正。针对名词单复数错误、动词形式错误、主谓一致错误,其混淆集为开放集合,本文提出了一种基于n-gram投票策略的GEC方法。本文方法在2013年CoNLL的GEC数据上冠词错误纠正的F1值为34.01%,超过第一名UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为10.08%,超过UIUC的介词错误纠正F1值7.22%。本文的具体贡献可归纳为以下几点:1)提出一种基于n-gram投票策略的GEC方法。以往基于n-gram的GEC方法中,一般基于较长的n-gram片段进行纠正,没有充分考虑不同长度n-gram对纠正结果的影响。因此,本文提出基于n-gram投票策略GEC方法,针对不同长度的n-gram片段,设置不同的投票权重,长度越长权重越大,最后使用这些n-gram片段进行投票并选取得票最高的候选作为纠正结果。2)针对冠词、介词错误,本文提出一种基于ESL语料和新闻语料的两层GEC方法。由于基于n-gram投票策略的GEC方法纠正语法错误时,存在将大量正确句子改为错误句子的现象,且冠词和介词变化形式有限,混淆集为封闭集合。本文提出了这种方法来解决此问题,首先,使用ESL语料训练识别模型,判断句子是否存在语法错误。如果存在语法错误,再使用n-gram投票策略进行语法错误纠正。3)扩充了知识库及并建立高效率的n-gram搜索引擎。对动词及名词变化表进行扩充,有效提高了名词及动词错误的纠正结果。如果顺序检索n-gram,效率十分低下,所以本文对n-gram建立索引并在此基础上设计并实现了更加合理、完善的搜索策略,提高了查询效率,间接提高了语法错误自动纠正系统的效率。4)开发了一个高效率的语法错误纠正系统。针对本文提出的方法,设计并实现了一个高效率的语法错误自动纠正系统。系统包括一个界面,包含一个输入文本框、一个输出文本框及5个按钮,分别对应五种错误的纠错功能。