英语文章语法错误自动纠正的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:heying423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球化的背景下,英语成为全球最受欢迎的语言之一,ESL(English as Second Language)学习者的数量逐步递增。在听、说、读、写四项基本英语技能中,写作被认为是ESL学习者最难掌握的技能。同时,由于ESL学习者语法知识的匮乏及受母语的影响,语法错误成为写作中最常见的错误之一。语法错误自动纠正(Grammatical Error Correction,GEC )指的是用计算机自动对英语文章中出现的语法错误进行纠正。针对冠词和介词错误,其变化形式有限,混淆集(Confusion Set,CS)为封闭集合,本文提出了一种基于ESL和新闻语料的两层GEC方法。首先,使用ESL语料训练识别模型,判断句子是否存在语法错误。如果存在语法错误,则使用n-gram投票策略进行语法错误纠正。针对名词单复数错误、动词形式错误、主谓一致错误,其混淆集为开放集合,本文提出了一种基于n-gram投票策略的GEC方法。本文方法在2013年CoNLL的GEC数据上冠词错误纠正的F1值为34.01%,超过第一名UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为10.08%,超过UIUC的介词错误纠正F1值7.22%。本文的具体贡献可归纳为以下几点:1)提出一种基于n-gram投票策略的GEC方法。以往基于n-gram的GEC方法中,一般基于较长的n-gram片段进行纠正,没有充分考虑不同长度n-gram对纠正结果的影响。因此,本文提出基于n-gram投票策略GEC方法,针对不同长度的n-gram片段,设置不同的投票权重,长度越长权重越大,最后使用这些n-gram片段进行投票并选取得票最高的候选作为纠正结果。2)针对冠词、介词错误,本文提出一种基于ESL语料和新闻语料的两层GEC方法。由于基于n-gram投票策略的GEC方法纠正语法错误时,存在将大量正确句子改为错误句子的现象,且冠词和介词变化形式有限,混淆集为封闭集合。本文提出了这种方法来解决此问题,首先,使用ESL语料训练识别模型,判断句子是否存在语法错误。如果存在语法错误,再使用n-gram投票策略进行语法错误纠正。3)扩充了知识库及并建立高效率的n-gram搜索引擎。对动词及名词变化表进行扩充,有效提高了名词及动词错误的纠正结果。如果顺序检索n-gram,效率十分低下,所以本文对n-gram建立索引并在此基础上设计并实现了更加合理、完善的搜索策略,提高了查询效率,间接提高了语法错误自动纠正系统的效率。4)开发了一个高效率的语法错误纠正系统。针对本文提出的方法,设计并实现了一个高效率的语法错误自动纠正系统。系统包括一个界面,包含一个输入文本框、一个输出文本框及5个按钮,分别对应五种错误的纠错功能。
其他文献
砼是一种非匀质材料,尤其是不封闭和贯通的孔隙必然影响砼整体的抗渗性。从不同的角度采取适当措施,能改善砼的孔结构,从而提高砼的耐久性和抗渗性:
初识中国:侵华八国联军随行记者的报道活动张功臣中国的20世纪之门,是被从遥远的海外纷至沓来的八国联军之枪炮打开的。酉方列强以解救为义和团所围攻的北京使馆的名义而采取的这
目前,迫于学生升学和教师考核的需要,部分教师对学生综合素质评价偏重于理论知识的考核,忽视了学生自身主体作用的发挥。这种评价单一化、片面化,对学生身心健康和班级和谐发
<正> 罗马法在世界法律史上占有重要的地位。马克思、恩格斯在他们的许多著作中多次论述过罗马法。本文拟就马克思、恩格斯的著作和通信中有关罗马法的论述作一综合介绍。一
猪是单胃动物,其胃的结构简单,为单室结构,所以猪需要易消化、高品质的饲料。决定猪饲料利用率最重要的因素之一是饲料中各颗粒粒度的分布情况。饲料的颗粒粒度减小可提高猪
本文根据采煤机牵引部齿轨轮与驱动轮组件存在的注油难问题,现场取材,设计制造了一款简单、高效的注油装置,解决了生产问题,并降低了生产成本。
随着社会的发展,卫浴行业对水龙头弯管表面光洁度的要求越来越高,目前行业内大多采用人工抛光,存在抛光质量差、效率低、成本高等不足,与此同时,抛光粉尘对工人的健康有严重
高中生数学思维的障碍和误区的形成是由多方面因素造成的,文章针对其成因从教师和学生两个方面进行了简要的综合概述,并进行了浅要的分析,从而提出相应的解决办法。实践证明,