一个基于新概念英语课文的文本易读性回归模型

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:NET399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机文本难度自动评判技术在诸如语言教学、语言测试、图书出版业等领域的广泛应用,与之相关的研究变得越来越重要,也更具有实际意义。尽管文本易读性(文本难度)的研究已有近一个世纪的历史,但有关文本难度的测量依然是个未解难题。到目前为止,出现了很多本文易读性公式,但是,这些公式大都根据经验列出几个与本文难度有关的因素,并没有经过科学的推理建模过程。虽然近年来对读者因素的研究有很多,但针对篇章本身的研究也是非常有意义的。不难理解,文本的难易程度是文本与读者互相作用的结果。对于不同水平的读者给出相应的适合其阅读的文本一直是教学工作者们探索的课题,仅凭教师的以往经验有时并不能达到令人满意的效果。因此,应该研究较为科学、客观、可行的方法对本文难度做出评判。本文在总结前人的研究成果的基础之上,试图建立一个较为严谨的数学回归模型来对文本的语言特征进行量化,进而对文本难度进行有效地评估。首先,作者提出与文本难度有关的六个假设因素:文本单词数、从句数、平均句长、语块数、类符形符比。然后,选取《新概念英语3》中的60篇文章作为训练语料,并且准确地测量出这60篇语料中的所有六个假设因素的值。然后运用多元线性回归分析建立方程并验证假设,试图建立文本难度和假设因素之间的函数关系。在进行多元线性回归分析时,作者发现文本总词数和文本单词难度这两个变量存在共线性。为解决这个问题,采用岭回归分析重新建立方程。由岭回归方程得出,预测的文本难度与所提出的6个假设因素都相关,只是它们对文本难度函数的影响权重不同。总的来说,文本的总的单词数、从句数、文本的单词难度对文本难度的影响较大。而文本的平均句长、词块数和类符形符比对文本难度的影响不大。最后,选取《新视野大学英语2》中的10篇课文对所建立的方程进行验证。专家给出的文本难度分数和模型预测的分数存在很大的相关性,达0.92。这个结果表明,所建立的模型是有效的,所提出的6个假设因素,文本总词数,从句数,平均句长,词块数,类符形符比和文本单词难度都会影响文本难度,但是文本总词数,从句数和文本单词难度是主要因素。运用回归分析是为了在文本易读性和潜在的影响因素之间建立定量的数学关系,是一次大胆的尝试。数学模型的构建使文本难度测量更加具有科学性,信度也大大增加。本文提出研究文本难度的新思路,这对于评估测量大学英语教材的文本难度及类似的篇章具有一定参考价值的。
其他文献
当前,全国多个地区水泥价格又迎来新一轮涨价潮。日前,川渝地区部分水泥厂家再上涨50元/吨,平均达到550元/吨以上的高位。10月30日,卓创资讯分析师侯林林告诉记者,每一年的二
铁电体是一类重要的功能材料,它最显著的特性是材料内部的自发极化能够在外界条件(压力、电场、光等)下改变方向。与单轴铁电体相比,多轴铁电体具有多个等效极化方向,极化翻
为了克服铜线电缆无法克服的一些限制因素,光纤接入网是网络接入的必然趋势。光纤接入网具有巨大优势,其技术日益成熟,在实践中也探索出了多种形式的应用方式。
实习支教是我国高师院校普遍推行的一种教育实习活动。通过对X院校已经完成实习支教的大学生进行调查发现:实习支教普遍地提高了大学生的实践创新能力,尤其是艺体类大学生的
人工肛门不但影响患者的形象,还给患者的生活、工作、社交带来不便.在我们遇到的一些病人中由于缺乏相关的护理知识,患者认为自己是残废,不能正常做人,以至产生悲观,消极,自
在日语会话中,有一个约定熟成的惯例,即以“ですます”结尾的敬体一般用于比较正式的场合,以“だ”结尾的简体用于亲友间的日常对话。鈴木(1997)针对敬体与简体文末表现形式的使用
根据丁集矿厚松散层水文地质及地质勘探资料,结合大量原位测试、室内土工试验,研究了新生界松散含、隔水层的水文及工程地质特征,分析表明该矿区松散层总体厚度变化趋势为由东南
城市房屋拆迁的性质是国家收回被拆迁人的国有土地使用权,本质上是国家基于公共利益,强制取得公民的私有财产权。政府在城市房屋拆迁中并非处于“配角”的地位,政府应当对公民的
自身免疫激活导致的炎症反应是类风湿关节炎(rheumatoid arthritis,RA)发病的关键。TOLL样受体(toll-like receptors,TLRs)中的TLR2、TLR4及其介导的NF-κΒ信号通路能诱发机
煤炭作为一种不可再生能源,在现代工业中发挥着重要的作用,被广泛用作工业生产的燃料。为了提高煤炭附加值,从中提取煤基天然高分子,并与乙烯基单体共聚进行化学改性,所得复合材料