论文部分内容阅读
摘 要:随着近几年来人工智能技术的发展,计算机技术被越来越多地应用到教育领域,英语作文自动评分就是其中的一个方面。为达到英语作文自动评分的要求,该系统提取作文内容等一系列特征进行综合考评,使用自然语言处理、文本特征提取、潜在语法分析等技术,实现英语作文自动评分功能。本系统可通过添加自定义的停用词词典,而扩展运用到更多的场景。
关键词:自动评分;潜在语义分析;文本特征提取
中图分类号:TP319 文献标识码:A 文章编号:2096-4706(2019)04-0027-03
Research and Implementation of English Composition Automatic Scoring System
ZHANG Ruijie,SONG Wanli,LIU Qi,FAN Yuanyuan,JIANG Dairui,GE Yipeng
(Nanjing Xiaozhuang University,Nanjing 211171,China)
Abstract:With the development of artificial intelligence technology in recent years,computer technology has been more and more applied to the field of education. The automatic scoring of English composition is also one of the aspects to achieve automatic scoring of English composition. In order to meet the requirement of automatic scoring of English compositions,the system extracts a series of features such as the content of the compositions for comprehensive evaluation,and uses natural language processing,text feature extraction,potential grammar analysis and other technologies to achieve automatic scoring of English compositions. The system can be extended to more scenarios by adding a custom dictionary of stop words.
Keywords:automatic scoring;latent semantic analysis;text feature extraction
0 引 言
计算机越来越广泛地被运用到辅助教学的场景中,在英语助教领域也有点读机、视频教学、智能翻译等多种应用。在英语教学过程中,听、说、读、写都是英语的基本技能,在日常的教学、训练、考核中,写作能力是比较难培养的[1],也是最耗费老师精力的。写作作为一种语言输出形式,是评价学生英语综合水平和应用能力的一个重要指标。目前国内英语大规模考试中,如:英语高考、大学生英语四、六级考试,都有英语作文写作的考核,但是在阅卷的时候英语作文区别于客观题需要进行人工阅卷,人工阅卷不仅在判题时有较强的主观性,甚至需要多人重复判一份试卷来保证结果的公正,这会导致工作量翻倍,耗费优秀教师大量的时间和精力。英语作文自动评分系统的开发和使用,可有效的解决上述问题。
最早的英语作文自动评分(AutomatedEnglishScoring,简称AES)系统是1966年由美国杜克大学的Ellis Batten Page等学者开发的PEG(Porject Essay Grader),后來许多AES系统被开发、实验甚至投入商用,例如:IEA、E-Rater、IntelliMetric、BETSY等。其中最具代表性的有PEG、IEA和E-Rater三种[2]。这三种系统在考评时侧重点不同:PEG重点比较表层语言特征,包括用词、句型、结构等;IEA侧重考察作文内容,即浅层语义;E-Rater在作文的表现形式和内容意义两个方面均有考虑。国内的相关研究起步较晚,但近几年许多学者都开始在英语作文自动评分上投入精力与成本。目前国内也已经有一些投入使用的AES系统,如句酷批改网、新东方批改网和冰果英语作文评阅系统等。也有学者实地研究并得出结论,英语作文自动评分系统作为大学英语辅助教学工具,可以帮助学生在写作时养成更加关注句法运用、篇章逻辑结果等习惯,进而有效提高学生写作和自主学习的能力[3]。目前许多学者追求的目标就是在可预计的未来中,能在考试场景中应用英语作文自动评分系统。本文在调研大量文献的基础上,使用自然语言处理、文本特征提取、潜在语法分析等技术,实现英语作文自动评分。
1 系统设计
本系统通过预处理文本、提取文本关键字等技术先对作文进行预处理,提取能代表作文内容的特征单词;之后将这些特征单词应用于潜在语义模型中,获得能代表作文内容的特征项;接着提取作文语言方面的信息,如单词正确率,语法错误情况,句子的长度等,作为作文语言方面的特征项;然后将这些特征共同组成代表作文写作水平的特征向量;最后利用潜在语义分析和K近邻算法对英语作文进行评分。本文采用方法的基本算法流程如图1所示。
2 系统实现
作文单词特征提取与评价模块,主要功能是对作文的用词和句子结构进行分析与评价,读入整篇作文后分别以句和单词为单位进行拆分,并对作文中的语句的内容以及复杂程度进行评分,同时给出一定的语句错误提示;针对作文中单词的使用情况(拼写错误率,语法错误率等)进行评分,同时给出对应的参考用词。首先基于Lucene Analyzer的分词[4],Lucene内置提供的Analyzer不能满足本系统的需求,我们还添加了自定义的停用词表。在分词后,参考了WordNet[5,6]里词条和词条的同义词集的内容,对单词进行检测,同时进行单词正确率的计算。借助JWML在WordNet中查词,统计出正确单词的个数,拼写错误单词的个数,获得正确单词的词根等。最后借助Lucene中已有的SpellChecker工具[7]来实现拼写检查功能。本系统使用了四六级词汇表作为检查范围,并从中选出前5个作为参考词,同时结合词性标注之后的结果给出更合理的建议。 作文特征向量的抽取与评价模块,主要完成的是提取文章特征值(关键词),并根据学生作文的特征词集与作文主题的贴合度进行评分。本系统为了提取在当前作文中有效单词对于文章主题的表达情况,使用TF-IDF(term frequency-inverse document frequency)[8,9]统计方法。我们认为字词的重要性随着它在当前文章或同主题文章中出现的次数成正比增加,但同时会随着它在不同主题文章中出现的频率成反比下降。在算出单词对于文章的重要性的时候,我们综合考虑信息熵和条件熵[10],将待打分作文排序的前30词和高分标准作文集进行归一化处理,得出该文章和高分标准作文集的相似性,最终得出文章的特征分数。
作文语句特征分析与评价模块主要是对作文中语句的词法和句法特点进行提取,然后根据文章中语句表达的完整性和句型的复杂程度进行评分,并针对语法和句法错误给出一定的错误提示信息。在系统实现时,本系统主要使用了斯坦福大学Stanford parser开源句法分析器,生成句法树模型,对句子进行评价。将句子评价建立在单词评价模块对拼写错误单词的简单词法矫正的基础上,这样能够获得单词与句子相对应的树状结构和句子成分间的依赖关系。在这个过程中还通过对句子成分的词性分析,结合修正过拼写的单词表达的意思给出关于用法错误的单词的建议。语法错误检查运用的方法主要是基于规则和结构树的语法检查。基于规则的语法检查方法需要用到一个代表英语语法结构的规则集,这些规则集尽可能多的覆盖英语语法特征。
作文篇章结构分析与评价模块,主要是分析文章不同段落之间的语义联系,考察上下文是否紧凑、是否围绕同一主题进行陈述,并根据段落间语义联系程度进行评分。通过LSA[11]在大量训练集作文文本上构建一个矩阵,该矩阵的一行代表一个词,一列代表一个文档,矩阵元素代表该词在该文档中出现的次数;为了减小计算压力,在矩阵上使用奇异值分解(SVD);接着通过计算皮尔森相关系数(Pearson correlation coefficient)[12]来标识两个词语对应的两组线性数据的相关程度,这个过程借助了JAMA工具计算;最后通过对矩阵的计算,得到一个在0~1之间的值,作为段落间关联度评分的依据。
作文自动评分模块,主要完成的是综合评价,并获取最终得分。在经过前面多方面的处理后,可获得四个基础特征值,分别为单词结构评价、句子结构评价、篇章结构评价以及主题贴合度评价。这一部分在实现的时候本系统选择了WEKA工具[13,14]中的KNN算法[15]。WEKA中所有算法对输入的数据集都有统一要求,即ARFF格式,并要求以单一关系列表的形式输入。这些数据可从文件中读取或由数据库产生。前期处理得出的四个属性值便可利用以上信息增益的计算方法为作文中的每个属性计算其信息增益,从而完成加权,即越大的信息增益值的属性将被赋予越大的权值。
3 实验结果与结果分析
为了模拟本系统在真实环境中的使用情况,实验数据选取了南京晓庄学院某学院2015级的英语期末考试卷共240份(两种话题作文各120份)。使用了对比实验的方法,分别统计了240份作文在期末试卷、批改网打分、本系统考评的分数情况,因为期末考试作文满分是20分,其他两种系统都是百分制的,为了方便对比我们将三个分数都转换成对应的百分制。图2是随机抽取34篇作文的评分结果。
通过数字比较和图形观察都可以比较明显的看出,本系统的打分结果更贴近老师真实的英语阅卷情况。
4 结 论
本系统通过预处理文本和提取文本关键字对作文先进行预处理,提取能代表作文内容的特征单词;之后将这些特征单词应用在潜在语义模型中,获得能代表作文内容的特征项;接着提取作文语言方面的信息,如单词正确率、语法错误情况、句子的长度等,作为作文语言方面的特征项;然后将这些特征共同组成代表作文写作水平的特征向量;最后利用潜在语义分析和K近邻算法对英语作文进行评分。
通过实验表明,本文提出的英语作文自动评分系统基本满足话题作文的阅卷参考需要,下一步是利用更好的分词算法提高中间数据的清洁度,并优化算法提高语义分析精准度,进而使英语作文评分的成绩更贴合实际情况。
参考文献:
[1] 任霞.计算机辅助英语教学 [J].科技创新导报,2008(17):223.
[2] 梁茂成,文秋芳.国外作文自动评分系统评述及启示 [J].外语电化教学,2007(5):18-24.
[3] 熊松荣,汪阳.写作自动评价系统在大学英语写作教学中的应用 [J].湖北函授大学学报,2018,31(17):156-157.
[4] Luo H,Guo S.The improvement of Chinese word analyzer based on Lucene [J].Microcomputer & Its Applications,2018,34(11):76-78+82.
[5] Miller G A. WordNet:a lexical database for English [J].Communications of the ACM,1995,38(11):39-41.
[6] Fellbaum C.WordNet:An Electronic Lexical Database [J].Library Quarterly Information Community Policy,1998,25(2):292-296.
[7] Grainger T,Potter T. Solr in Action [M].Manning Publications Co.,2014.
[8] 楊倩倩,徐栋.TFIDF方法在英语句子相似度计算中的应用初探 [J].电脑知识与技术,2012,8(17):4127-4128. [9] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [C]// International Conference on Machine Learning,1996:143-151.
[10] 李荣陆.文本分类及其相关技术研究 [D].上海:复旦大学,2005.
[11] 桂诗春.潜伏语义分析的理论及其应用 [J].现代外语,2003,26(1):76-84.
[12] Pearson K. Note on Regression and Inheritance in the Case of Two Parents [J]. Note on Regression and Inheritance in the Case of Two Parents,1895,58:240-242.
[13] Hall M,Frank E,Holmes G,et al. The WEKA data mining software:an update [J] .Acm Sigkdd Explorations Newsletter,2009,11(1):10-18.
[14] Holmes G,Donkin A,Witten I H. WEKA:a machine learning workbench [C]// Conference on Intelligent Information Systems,2002:357-361.
[15] Hastie T,Tibshirani R. Discriminant adaptive nearest neighbor classification [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1996,18(6):607-616.
作者簡介:张锐捷(1996-),女,汉族,山西太原人,本科生,研究方向:智能教育技术、计算机软件技术;宋万里(1981-),男,汉族,辽宁法库人,副教授,研究方向:智能教育技术、数据挖掘;刘琪(1996-),女,汉族,本科生,研究方向:计算机软件技术;范圆圆(1997-),女,汉族,本科生,研究方向:计算机软件技术;姜戴锐(1997-),男,汉族,本科生,研究方向:计算机软件技术;葛艺芃(1997-),女,汉族,本科生,研究方向:计算机软件技术。
关键词:自动评分;潜在语义分析;文本特征提取
中图分类号:TP319 文献标识码:A 文章编号:2096-4706(2019)04-0027-03
Research and Implementation of English Composition Automatic Scoring System
ZHANG Ruijie,SONG Wanli,LIU Qi,FAN Yuanyuan,JIANG Dairui,GE Yipeng
(Nanjing Xiaozhuang University,Nanjing 211171,China)
Abstract:With the development of artificial intelligence technology in recent years,computer technology has been more and more applied to the field of education. The automatic scoring of English composition is also one of the aspects to achieve automatic scoring of English composition. In order to meet the requirement of automatic scoring of English compositions,the system extracts a series of features such as the content of the compositions for comprehensive evaluation,and uses natural language processing,text feature extraction,potential grammar analysis and other technologies to achieve automatic scoring of English compositions. The system can be extended to more scenarios by adding a custom dictionary of stop words.
Keywords:automatic scoring;latent semantic analysis;text feature extraction
0 引 言
计算机越来越广泛地被运用到辅助教学的场景中,在英语助教领域也有点读机、视频教学、智能翻译等多种应用。在英语教学过程中,听、说、读、写都是英语的基本技能,在日常的教学、训练、考核中,写作能力是比较难培养的[1],也是最耗费老师精力的。写作作为一种语言输出形式,是评价学生英语综合水平和应用能力的一个重要指标。目前国内英语大规模考试中,如:英语高考、大学生英语四、六级考试,都有英语作文写作的考核,但是在阅卷的时候英语作文区别于客观题需要进行人工阅卷,人工阅卷不仅在判题时有较强的主观性,甚至需要多人重复判一份试卷来保证结果的公正,这会导致工作量翻倍,耗费优秀教师大量的时间和精力。英语作文自动评分系统的开发和使用,可有效的解决上述问题。
最早的英语作文自动评分(AutomatedEnglishScoring,简称AES)系统是1966年由美国杜克大学的Ellis Batten Page等学者开发的PEG(Porject Essay Grader),后來许多AES系统被开发、实验甚至投入商用,例如:IEA、E-Rater、IntelliMetric、BETSY等。其中最具代表性的有PEG、IEA和E-Rater三种[2]。这三种系统在考评时侧重点不同:PEG重点比较表层语言特征,包括用词、句型、结构等;IEA侧重考察作文内容,即浅层语义;E-Rater在作文的表现形式和内容意义两个方面均有考虑。国内的相关研究起步较晚,但近几年许多学者都开始在英语作文自动评分上投入精力与成本。目前国内也已经有一些投入使用的AES系统,如句酷批改网、新东方批改网和冰果英语作文评阅系统等。也有学者实地研究并得出结论,英语作文自动评分系统作为大学英语辅助教学工具,可以帮助学生在写作时养成更加关注句法运用、篇章逻辑结果等习惯,进而有效提高学生写作和自主学习的能力[3]。目前许多学者追求的目标就是在可预计的未来中,能在考试场景中应用英语作文自动评分系统。本文在调研大量文献的基础上,使用自然语言处理、文本特征提取、潜在语法分析等技术,实现英语作文自动评分。
1 系统设计
本系统通过预处理文本、提取文本关键字等技术先对作文进行预处理,提取能代表作文内容的特征单词;之后将这些特征单词应用于潜在语义模型中,获得能代表作文内容的特征项;接着提取作文语言方面的信息,如单词正确率,语法错误情况,句子的长度等,作为作文语言方面的特征项;然后将这些特征共同组成代表作文写作水平的特征向量;最后利用潜在语义分析和K近邻算法对英语作文进行评分。本文采用方法的基本算法流程如图1所示。
2 系统实现
作文单词特征提取与评价模块,主要功能是对作文的用词和句子结构进行分析与评价,读入整篇作文后分别以句和单词为单位进行拆分,并对作文中的语句的内容以及复杂程度进行评分,同时给出一定的语句错误提示;针对作文中单词的使用情况(拼写错误率,语法错误率等)进行评分,同时给出对应的参考用词。首先基于Lucene Analyzer的分词[4],Lucene内置提供的Analyzer不能满足本系统的需求,我们还添加了自定义的停用词表。在分词后,参考了WordNet[5,6]里词条和词条的同义词集的内容,对单词进行检测,同时进行单词正确率的计算。借助JWML在WordNet中查词,统计出正确单词的个数,拼写错误单词的个数,获得正确单词的词根等。最后借助Lucene中已有的SpellChecker工具[7]来实现拼写检查功能。本系统使用了四六级词汇表作为检查范围,并从中选出前5个作为参考词,同时结合词性标注之后的结果给出更合理的建议。 作文特征向量的抽取与评价模块,主要完成的是提取文章特征值(关键词),并根据学生作文的特征词集与作文主题的贴合度进行评分。本系统为了提取在当前作文中有效单词对于文章主题的表达情况,使用TF-IDF(term frequency-inverse document frequency)[8,9]统计方法。我们认为字词的重要性随着它在当前文章或同主题文章中出现的次数成正比增加,但同时会随着它在不同主题文章中出现的频率成反比下降。在算出单词对于文章的重要性的时候,我们综合考虑信息熵和条件熵[10],将待打分作文排序的前30词和高分标准作文集进行归一化处理,得出该文章和高分标准作文集的相似性,最终得出文章的特征分数。
作文语句特征分析与评价模块主要是对作文中语句的词法和句法特点进行提取,然后根据文章中语句表达的完整性和句型的复杂程度进行评分,并针对语法和句法错误给出一定的错误提示信息。在系统实现时,本系统主要使用了斯坦福大学Stanford parser开源句法分析器,生成句法树模型,对句子进行评价。将句子评价建立在单词评价模块对拼写错误单词的简单词法矫正的基础上,这样能够获得单词与句子相对应的树状结构和句子成分间的依赖关系。在这个过程中还通过对句子成分的词性分析,结合修正过拼写的单词表达的意思给出关于用法错误的单词的建议。语法错误检查运用的方法主要是基于规则和结构树的语法检查。基于规则的语法检查方法需要用到一个代表英语语法结构的规则集,这些规则集尽可能多的覆盖英语语法特征。
作文篇章结构分析与评价模块,主要是分析文章不同段落之间的语义联系,考察上下文是否紧凑、是否围绕同一主题进行陈述,并根据段落间语义联系程度进行评分。通过LSA[11]在大量训练集作文文本上构建一个矩阵,该矩阵的一行代表一个词,一列代表一个文档,矩阵元素代表该词在该文档中出现的次数;为了减小计算压力,在矩阵上使用奇异值分解(SVD);接着通过计算皮尔森相关系数(Pearson correlation coefficient)[12]来标识两个词语对应的两组线性数据的相关程度,这个过程借助了JAMA工具计算;最后通过对矩阵的计算,得到一个在0~1之间的值,作为段落间关联度评分的依据。
作文自动评分模块,主要完成的是综合评价,并获取最终得分。在经过前面多方面的处理后,可获得四个基础特征值,分别为单词结构评价、句子结构评价、篇章结构评价以及主题贴合度评价。这一部分在实现的时候本系统选择了WEKA工具[13,14]中的KNN算法[15]。WEKA中所有算法对输入的数据集都有统一要求,即ARFF格式,并要求以单一关系列表的形式输入。这些数据可从文件中读取或由数据库产生。前期处理得出的四个属性值便可利用以上信息增益的计算方法为作文中的每个属性计算其信息增益,从而完成加权,即越大的信息增益值的属性将被赋予越大的权值。
3 实验结果与结果分析
为了模拟本系统在真实环境中的使用情况,实验数据选取了南京晓庄学院某学院2015级的英语期末考试卷共240份(两种话题作文各120份)。使用了对比实验的方法,分别统计了240份作文在期末试卷、批改网打分、本系统考评的分数情况,因为期末考试作文满分是20分,其他两种系统都是百分制的,为了方便对比我们将三个分数都转换成对应的百分制。图2是随机抽取34篇作文的评分结果。
通过数字比较和图形观察都可以比较明显的看出,本系统的打分结果更贴近老师真实的英语阅卷情况。
4 结 论
本系统通过预处理文本和提取文本关键字对作文先进行预处理,提取能代表作文内容的特征单词;之后将这些特征单词应用在潜在语义模型中,获得能代表作文内容的特征项;接着提取作文语言方面的信息,如单词正确率、语法错误情况、句子的长度等,作为作文语言方面的特征项;然后将这些特征共同组成代表作文写作水平的特征向量;最后利用潜在语义分析和K近邻算法对英语作文进行评分。
通过实验表明,本文提出的英语作文自动评分系统基本满足话题作文的阅卷参考需要,下一步是利用更好的分词算法提高中间数据的清洁度,并优化算法提高语义分析精准度,进而使英语作文评分的成绩更贴合实际情况。
参考文献:
[1] 任霞.计算机辅助英语教学 [J].科技创新导报,2008(17):223.
[2] 梁茂成,文秋芳.国外作文自动评分系统评述及启示 [J].外语电化教学,2007(5):18-24.
[3] 熊松荣,汪阳.写作自动评价系统在大学英语写作教学中的应用 [J].湖北函授大学学报,2018,31(17):156-157.
[4] Luo H,Guo S.The improvement of Chinese word analyzer based on Lucene [J].Microcomputer & Its Applications,2018,34(11):76-78+82.
[5] Miller G A. WordNet:a lexical database for English [J].Communications of the ACM,1995,38(11):39-41.
[6] Fellbaum C.WordNet:An Electronic Lexical Database [J].Library Quarterly Information Community Policy,1998,25(2):292-296.
[7] Grainger T,Potter T. Solr in Action [M].Manning Publications Co.,2014.
[8] 楊倩倩,徐栋.TFIDF方法在英语句子相似度计算中的应用初探 [J].电脑知识与技术,2012,8(17):4127-4128. [9] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [C]// International Conference on Machine Learning,1996:143-151.
[10] 李荣陆.文本分类及其相关技术研究 [D].上海:复旦大学,2005.
[11] 桂诗春.潜伏语义分析的理论及其应用 [J].现代外语,2003,26(1):76-84.
[12] Pearson K. Note on Regression and Inheritance in the Case of Two Parents [J]. Note on Regression and Inheritance in the Case of Two Parents,1895,58:240-242.
[13] Hall M,Frank E,Holmes G,et al. The WEKA data mining software:an update [J] .Acm Sigkdd Explorations Newsletter,2009,11(1):10-18.
[14] Holmes G,Donkin A,Witten I H. WEKA:a machine learning workbench [C]// Conference on Intelligent Information Systems,2002:357-361.
[15] Hastie T,Tibshirani R. Discriminant adaptive nearest neighbor classification [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1996,18(6):607-616.
作者簡介:张锐捷(1996-),女,汉族,山西太原人,本科生,研究方向:智能教育技术、计算机软件技术;宋万里(1981-),男,汉族,辽宁法库人,副教授,研究方向:智能教育技术、数据挖掘;刘琪(1996-),女,汉族,本科生,研究方向:计算机软件技术;范圆圆(1997-),女,汉族,本科生,研究方向:计算机软件技术;姜戴锐(1997-),男,汉族,本科生,研究方向:计算机软件技术;葛艺芃(1997-),女,汉族,本科生,研究方向:计算机软件技术。