英语作文自动评分算法的研究与设计

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:guyuehu11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术在各个领域的推广和应用,英语作文自动评分领域也得到很大的关注和发展,但是在文本内容的表征上却没有很大的突破,传统的文本内容的表征多基于潜在语义分析技术,而潜在语义分析技术只能提取主题信息,单词的信息会被忽略。因而,本文提出基于词向量聚类的文本内容表征方法和基于向量空间模型的文本内容表征方法,不仅可以充分表征词文本含义,同时兼顾到了作文题意符合程度,并在此基础上,本文研究出一种基于词向量的多模型融合的英语作文自动评分算法。为了能更好地表征文本内容,本文提出基于词向量聚类的文本内容表征方法,先用维基百科英文语料库训练word2vec模型,接着将训练好的模型生成被测文本的词向量并对其进行聚类,用各类别下对应的词的统计信息作为内容文本特征。此外,本文提出用基于向量空间模型的文本内容表征方法来评判学生所写作文的题意符合程度,通过向量空间模型提取文本的关键词,并在此基础上生成扣题度特征。并且,本文从词和句子层面生成词法特征和句法特征作为非文本特征从侧面评判文章质量。然后,利用前面提取到的文本特征和非文本特征,将三个机器学习模型(随机森林、梯度提升树、XGBoost)的预测结果进行线性融合作为最终的预测结果。最后,本文利用国际数据挖掘竞赛平台Kaggle上的英语作文评分比赛数据集对模型效果进行验证。经过验证,本文提出的基于词向量的多模型融合的英语作文自动评分算法在测试集数据上的预测结果的二次加权Kappa值优于Kaggle上的国际英语作文评分比赛上第一名的成绩,验证了本文提出的算法的效果。
其他文献
在歌剧艺术中,歌剧人物根据戏剧情节而产生的形体语言与舞台动作是区别于其他音乐表演形式的因素。歌剧不仅要求演员演唱,而且还要通过舞台动作来叙述情节,刻画人物心理,表现
本报讯日前,上海金融系统将按照有关要求,在加强监管中提高金融开放水平,更好服务实体经济发展。上海市金融工作委员会党委书记、市金融办主任郑杨透露,未来上海市金融办在保留“
报纸
目的了解甘肃省医院护理人员医院健康教育知信行现状,为制定医院健康教育策略提供科学依据。方法采用分层随机抽样的方法,利用自制调查问卷对该省20家三级医院的护士进行医院
<正>20世纪50年代,歌颂英雄,抒写历史,在中国形成了一种文学的滚滚洪流,于是文学作品出现了一系列的英雄形象。可是这些英雄过于完美,而失之色彩:他们大公无私,英勇无畏,不会
<正>前不久,我看了一部叫《宝葫芦的秘密》的电影。小学生王葆不好好学习,总想着不劳而获。一天王葆在梦中了钓到一只宝葫芦。这只宝葫芦能帮他实现任何愿望,只是王葆不能说
运用RFID技术实现网络化考勤,是RFID技术新的应用功能拓展。
目前基层文博单位大多受到人力、财力、技术等因素的困扰,藏品得不到有效的保护、展示、研究,从而失去了文物的真正价值。近几年来赴各市县级博物馆考察了解,大部分基
会议
随着现代科学技术的飞速发展,国内相关综艺节目之间的竞争压力越来越大,从形式、制作、内容各异的综艺节目层出不穷。由于互联网技术的发展,网络自制综艺节目开始出现在人们
国务院日前印发了《中国制造2025》。这是我国实施制造强国战略第一个十年的行动纲领。提出了通过“三步走”实现制造强国的战略目标,还提出大力推动重点领域突破发展,聚焦新一
从分子设计的角度出发,以丙烯腈(AN)和丙烯酸(AA)为共聚单体微乳液聚合制备聚合物凝胶,然后经盐酸羟胺改性得到一种新型的表面含有-COOH、-NH2等功能基团的聚合物凝胶粒子。