论文部分内容阅读
近年来,随着计算机文本难度自动评判技术在诸如语言教学、语言测试、图书出版业等领域的广泛应用,与之相关的研究变得越来越重要,也更具有实际意义。尽管文本易读性(文本难度)的研究已有近一个世纪的历史,但有关文本难度的测量依然是个未解难题。到目前为止,出现了很多本文易读性公式,但是,这些公式大都根据经验列出几个与本文难度有关的因素,并没有经过科学的推理建模过程。虽然近年来对读者因素的研究有很多,但针对篇章本身的研究也是非常有意义的。不难理解,文本的难易程度是文本与读者互相作用的结果。对于不同水平的读者给出相应的适合其阅读的文本一直是教学工作者们探索的课题,仅凭教师的以往经验有时并不能达到令人满意的效果。因此,应该研究较为科学、客观、可行的方法对本文难度做出评判。本文在总结前人的研究成果的基础之上,试图建立一个较为严谨的数学回归模型来对文本的语言特征进行量化,进而对文本难度进行有效地评估。首先,作者提出与文本难度有关的六个假设因素:文本单词数、从句数、平均句长、语块数、类符形符比。然后,选取《新概念英语3》中的60篇文章作为训练语料,并且准确地测量出这60篇语料中的所有六个假设因素的值。然后运用多元线性回归分析建立方程并验证假设,试图建立文本难度和假设因素之间的函数关系。在进行多元线性回归分析时,作者发现文本总词数和文本单词难度这两个变量存在共线性。为解决这个问题,采用岭回归分析重新建立方程。由岭回归方程得出,预测的文本难度与所提出的6个假设因素都相关,只是它们对文本难度函数的影响权重不同。总的来说,文本的总的单词数、从句数、文本的单词难度对文本难度的影响较大。而文本的平均句长、词块数和类符形符比对文本难度的影响不大。最后,选取《新视野大学英语2》中的10篇课文对所建立的方程进行验证。专家给出的文本难度分数和模型预测的分数存在很大的相关性,达0.92。这个结果表明,所建立的模型是有效的,所提出的6个假设因素,文本总词数,从句数,平均句长,词块数,类符形符比和文本单词难度都会影响文本难度,但是文本总词数,从句数和文本单词难度是主要因素。运用回归分析是为了在文本易读性和潜在的影响因素之间建立定量的数学关系,是一次大胆的尝试。数学模型的构建使文本难度测量更加具有科学性,信度也大大增加。本文提出研究文本难度的新思路,这对于评估测量大学英语教材的文本难度及类似的篇章具有一定参考价值的。