论文部分内容阅读
英语作为世界上使用最广泛的语言已被人们广泛学习和应用。在非英语母语(Englishassecondlanguage,ESL)作者的写作中,动词的误用是所有语法错误中最为频繁出现的错误之一。ESL对动词的误用主要分为两种:一种是从语法的角度,主要发生在动词的主谓搭配、时态、拼写上;另一种是从语义的角度,对动词的使用环境理解不当,造成语义的错误与混淆。而第二种动词语义误用的错误却没有人对其做过相关研究。主要原因在于,动词的语义错误很难直接定义,与错误形式相对固定的语法错误相比,动词的语义误用没有相应的规则来进行直接处理。因此,为解决动词的语义误用问题,本文进行了深入研究并主要做了以下工作。本文首先从Lang-8网站上获取了英文正误句子对,根据这些句子对,本文提取了容易被误用的动词集合,然后设计了几种纠正ESL学习者的英语动词语义错误的方法。首先我们使用传统的机器学习方法,引入了强分类器SVM,通过特征选择,为每一个易误用的动词训练了一个多分类器(由于每个动词可能有多种误用形式),然后我们提出了基于序列到序列的注意力模型(Sequence to Sequence Attention GRU,SSAG)。经过实验验证,发现对于误用形式较多的词,基于SVM的动词误用检测模型的效果不稳定,其中的一个主要的原因是特征空间过于稀疏,从而导致算法无法选择合适的分类面。而使用词嵌入(Word Embedding)加注意力模型(Attention model)的SSAG算法效果稳定,模型准确度达到了 87.84%。最后我们将SVM与SSAG算法相结合。通过在Giga数据集上进行评估,此方法显示出了令人满意的结果,模型的最终准确度为92.52%。