论文部分内容阅读
提高英语学习最好的办法是阅读。随着互联网技术和教育信息化的快速发展,网上可供选择的英语阅读材料越来越多,但问题是,海量的网络阅读材料容易让学习者迷失在资源的选择过滤中,无法准确高效地获取适合自己的阅读资源。因此,如何为学习者提供即符合其能力水平又满足其学习需求的个性化阅读材料逐渐成为教育技术研究领域关注的重点。而要为学习者提供符合其能力水平的阅读材料,首先要对阅读材料的难度进行评估。本文从影响英语阅读材料难度的最主要因素文本因素出发展开研究。关于文本难度(又称文本易读性或可读性)的研究已经有近一百年的历史了,但关于文本难度测量的方法却并不多,从已有文献中的研究成果来看,用于文本难度测量的主要方法有水平评估法,文本易读性公式法和机器学习。水平评估法的主观性太强,公式法虽可以客观量化文本可读性,但测量变量少且缺少科学的推理建模过程。机器学习是一种比较科学的研究方法,但目前使用的较少,且没有具体的研究成果。机器学习算法中,决策树可以在相对比较短的时间内对比较大型的数据集做出可行并且效果还不错的结果,而且易于理解和解释。因此,本文试图提出一种基于决策树的文本难度评估方法,以期提高英语文本难度评估的准确性和科学性。论文的主要工作内容包括:首先,介绍了本文所使用的研究方法,主要包括文献研究法,数理统计法和机器学习中的决策树分类法。并通过实验从26种可能影响文本难度的因素中选出了八个影响最大的因素来表征文本难度,作为决策树训练数据集中的属性。这八个影响因素分别是:篇幅/总词数,词族,全国英语等级考试1级词汇数量,最常用词汇数量,全国英语等级考试2级词汇数量,平均句子长度,全国英语等级考试3级词汇数量和从句数量。并将文本难度定义为Junior-middle(初中上),Junior-high(初中下),Senior-middle(高中上),Senior-high(高中下),College-1(大一)和 College-2(大二)6个等级。然后,选取人教版初的初中和高中教材,21世纪大学英语及新视野大学英语(第二版)这4套教材原文中的360篇课文文本作为训练数据集来构建决策树,并进行决策树的剪枝。最后,选取鲁教版初中教材和新世纪版本的高中教材以及大学精读英语和新视野大学英语的第三版这4套教材课文中的120篇文本作为测试数据集,对生成的决策树模型进行验证。由训练数据集构建的决策树模型对测试数据集的分类正确率是92.50%,基本证明了生成的决策树模型的有效性。论文的创新之处在于:(1)相较于传统的水平评估法主要依赖专家人为的主观判断来说,本文的研究方法更客观更科学。(2)传统公式法中的测量变量较少且基本是通过线性关系来量化文本难度,而决策树可以从多方面评估文本难度。(3)在其他使用机器学习算法评估文本难度的研究中,没有使用过决策树分类算法的,并且他们研究中的影响因素是根据以往经验主观定义的,本研究中的影响因素是通过机器学习算挑选得出的。