论文部分内容阅读
【摘 要】 完型填空这种测试项目被多种语言测试所采用,但却一直具有争议性。内容效度为测试效度中最重要的一个方面,而完型填空的内容效度如何仍然存有争议,基于对该问题的兴趣,作者决定对完型填空的内容效度进行综述,有助于理清该领域的研究思路与发展方向,促进语言测试效度,尤其是内容效度的提高。
【关键词】 语言测试 完形填空 内容效度
一.语言测试的内容效度
评估一项测试有四个因素:信度、效度、难度和区分度。其中效度是最重要的因素,“因为如果一项测试对其设计目的是无效的,那么分数也就没有意义”(Alderson&Urquhart,1983)。.作为语言测试最关键的因素,在效度在语言测试领域引起了众多研究者的关注。效度通常是指测试或其组成部分的适当性,作为其应测量内容的衡量标准(Herming,2001年)。因此,效度是测试应该遵循的基本标准。效度可分为表面效度、内容效度和建构效度。本文主要从内容效度的角度对完形填空测试进行研究。
(1)效度的分类
效度根据不同标准的分类吸引了众多学者的关注。学者们对效度进行了几种分类,如Davies(1986)和Alderson等人(2000年)。Alderson提出的分类法是最广泛采用的一种。他指出,效度分为三种类型:表面效度、内容效度和结构效度。表面效度是根据观察者的主观判断,测试似乎是衡量了其应该要衡量的知识或能力。如果一个考试对教师和考生看起来说是正确的,那就可以说它具有表面效度。内容效度是指测试内容必须对于课程中所教的内容具有代表性和典型性。结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,是指实验与理论之间的一致性。然而,由于时间和精力的限制本研究仅探讨内容效度。
(2)内容效度的定义和意义
如果考试的内容构成了语言技能、结构等的代表性样本,则认为该考试具有内容效度(休斯1989:22)。正如Kerlinger(1973)所说,“内容效度就是内容的代表性和抽样的充分性”。Bachman认为,内容效度主要包括两个方面:内容相关性和内容覆盖面(Bachman,1990)。对于相关性,考试越与考试规范或考试大纲相关,它就越有效。内容覆盖面关系到测试任务在目标语境中充分展示的程度,这可以通过随机选择的代表性样本实现。
Alderson(2000)提出,内容效度在国际效度中是最重要的,因为高的内容效度的测试倾向于准确地测量应该测量的内容。如果没有可靠的内容效度,分数解释可能会被曲解。Hughes(2000)指出,“内容效度越高,测试越能准确地测量出它应该测试的内容”。一种测试,其中测试规范中所要求的内容领域或语言行为表示不足或根本不表示,往往是不准确的。此外,他(2000)还指出,仅包含部分内容的测试,将不利于指导教学或提高实践语言能力。
(3)内容效度的分析方法
一般来说,语言测试的内容效度构建和评估分为两个阶段:测试前和测试后。
在测试前阶段,测试设计者的任务是构建语言行为或待测试内容领域的类别,并给出测试任务的清晰蓝图。最后,测试设计者使用测试规范来确定要测试的语言行为。该规范必须描述测试中所涉及的特定语言技能和领域的详细术语。
对于测试后阶段,分析语言测试内容效度的一种常见方法是将其与内容应该是什么的陈述进行比较。在这里,内容陈述可以是测试规范、正式的教学大纲、课程或领域规范(Alderson等人,1995)。这类似于Bachman对内容相关性的观点。当测试规范和测试内容进行比较时,很容易发现内容相关性的程度。通过这种方式,测试应该通过反映语言行为和应该覆盖的区域来实现内容效度。(Hilton,2000)。
二.语言测试中的完形填空
完形填空廣泛应用于各个层次的语言测试。完形填空有四种类型:按固定比率删词的完形填空、意向删词完形填空、多项选择完形填空和C-test。完形填空与阅读、语法和词汇有着密切的关系,这是完形填空研究中不可避免的问题。
(1)完形填空的定义、起源和发展
基于“闭合”心理格式塔理论,完形填空即是通过回忆不完整的视觉形状从而趋向于闭合.1953年,Wilson Taylor首次使用完形填空法,称为“cloze”。从那时起,许多研究人员和学者使用完形填空来衡量学生的阅读理解力,其前提是完形填空不仅仅是一个完成任务的模式,也涉及从上下文推理(Rye,1982)。而以Oller为代表的一些研究者则认为完形填空是一种既能测试阅读理解力又能测试全球语言能力的有效方法,因为它要求被测试中整合所有相关的系统知识,以便理解整体语境。到目前为止,对完形填空程序的研究仍在进行中,但争议仍然悬而未决。
尽管得到了一些赞誉并且在应用语言学和语言测试中取得一些实证结果,完形填空的效度一直存在较大的争议。然而,大多数研究者都认为完形填空是一种综合性测试,而不是离散点测试。这导致了完形填空在各种语言测试中的应用发生了变化。
(2)完形填空测试内容效度的相关要素
完形填空与语法和词汇有关,这已被广泛接受。完形填空没有语法和词汇是不可能存在的。为了做出正确的选择,考生必须对选项有一个全面而严谨的知识。考生必须掌握基本的语法知识,才能理解话语,找出并解释所提供的线索,选择最合适的单词。正如Darnell(1968)提出的,完形填空可以有效地评估语法和词汇,因为语篇提供了与语法和词汇相关单词的关系和线索。
完形填空也与阅读有关。在完形填空测试中,考生使用阅读技巧来识别单词和理解上下文。实验证明完形填空能有效地评价学生的阅读能力。完形填空与阅读有着密切的关系,这两种测试需要相似的技巧和能力。Guning(1988)还指出,完形填空可以作为阅读测验的替代品,因为如果考生不理解他所读的内容,他就不知道要如何填空。
三.完形填空内容效度的研究综述
在完形填空60多年的发展历程中,效度研究一直是研究的核心。相关研究主要有两种观点。
John·Oller 所代表的一种观点认为完形填空在评估整体语言能力方面是有效的。根据他的定义,语用测试必须是综合性的,因为它试图评估考生同时使用多种语言知识或技能的能力。因此,在语用测试中,为了完成任务,测试者必须将给定的语言序列与必须推断的外部语境联系起来(Oller,1979)。他的理论得到了许多统计证据的支持。Cohen(1980)称完形填空评估整体语言能力,包括语言知识、文本知识和单词知识。Ahluwalia (1992年)还指出完形填空是一种综合的、全球性的语言能力测试。Steinman(2002)甚至认为完形填空可以取代结构测试、词汇测试和阅读理解测试。Azevedo(1998)也列举了完形填空的优点,认为它是以被测试者为导向的,因为它的评估和反馈是同时进行的。
相反,还有另一种关于完形测试的观点。Alderson (1979)指出,完形填空是一个离散的点状测试,因为它仅仅是句子绑定,似乎衡量的是“低阶”而不是“高阶”语言技能。他(1983)认为,很难保持完形填空的效度和信度之间的一致性,因为删除不同的单词会导致不同的结果。此外,Brown(1998)证明了完形填空的效度在19%到83%之间,其信度在3%到96%之间。Namara(2000)认为,完形填空总体上似乎与语法和词汇的离散点测试相同。
到目前为止,关于完形填空是离散还是的语言测试的争论一直没有平息下来,也没有得出任何结论。但研究者更倾向于将完形填空作为一种综合性的语言能力测试。
四.结语
完形填空广泛应用于国内各类别、各级别的语言测试中,其效度如何,尤其是效度中最重要的内容效度如何,具有重要意义。对此方面的研究进行综述,将有助于我们全面了解完形填空的特点,提高语言测试的效度。由于个人精力有限,完形填空的表面效度和结构效度的研究综述可以留待学者继续分析,以得出更加全面的结论。
【关键词】 语言测试 完形填空 内容效度
一.语言测试的内容效度
评估一项测试有四个因素:信度、效度、难度和区分度。其中效度是最重要的因素,“因为如果一项测试对其设计目的是无效的,那么分数也就没有意义”(Alderson&Urquhart,1983)。.作为语言测试最关键的因素,在效度在语言测试领域引起了众多研究者的关注。效度通常是指测试或其组成部分的适当性,作为其应测量内容的衡量标准(Herming,2001年)。因此,效度是测试应该遵循的基本标准。效度可分为表面效度、内容效度和建构效度。本文主要从内容效度的角度对完形填空测试进行研究。
(1)效度的分类
效度根据不同标准的分类吸引了众多学者的关注。学者们对效度进行了几种分类,如Davies(1986)和Alderson等人(2000年)。Alderson提出的分类法是最广泛采用的一种。他指出,效度分为三种类型:表面效度、内容效度和结构效度。表面效度是根据观察者的主观判断,测试似乎是衡量了其应该要衡量的知识或能力。如果一个考试对教师和考生看起来说是正确的,那就可以说它具有表面效度。内容效度是指测试内容必须对于课程中所教的内容具有代表性和典型性。结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,是指实验与理论之间的一致性。然而,由于时间和精力的限制本研究仅探讨内容效度。
(2)内容效度的定义和意义
如果考试的内容构成了语言技能、结构等的代表性样本,则认为该考试具有内容效度(休斯1989:22)。正如Kerlinger(1973)所说,“内容效度就是内容的代表性和抽样的充分性”。Bachman认为,内容效度主要包括两个方面:内容相关性和内容覆盖面(Bachman,1990)。对于相关性,考试越与考试规范或考试大纲相关,它就越有效。内容覆盖面关系到测试任务在目标语境中充分展示的程度,这可以通过随机选择的代表性样本实现。
Alderson(2000)提出,内容效度在国际效度中是最重要的,因为高的内容效度的测试倾向于准确地测量应该测量的内容。如果没有可靠的内容效度,分数解释可能会被曲解。Hughes(2000)指出,“内容效度越高,测试越能准确地测量出它应该测试的内容”。一种测试,其中测试规范中所要求的内容领域或语言行为表示不足或根本不表示,往往是不准确的。此外,他(2000)还指出,仅包含部分内容的测试,将不利于指导教学或提高实践语言能力。
(3)内容效度的分析方法
一般来说,语言测试的内容效度构建和评估分为两个阶段:测试前和测试后。
在测试前阶段,测试设计者的任务是构建语言行为或待测试内容领域的类别,并给出测试任务的清晰蓝图。最后,测试设计者使用测试规范来确定要测试的语言行为。该规范必须描述测试中所涉及的特定语言技能和领域的详细术语。
对于测试后阶段,分析语言测试内容效度的一种常见方法是将其与内容应该是什么的陈述进行比较。在这里,内容陈述可以是测试规范、正式的教学大纲、课程或领域规范(Alderson等人,1995)。这类似于Bachman对内容相关性的观点。当测试规范和测试内容进行比较时,很容易发现内容相关性的程度。通过这种方式,测试应该通过反映语言行为和应该覆盖的区域来实现内容效度。(Hilton,2000)。
二.语言测试中的完形填空
完形填空廣泛应用于各个层次的语言测试。完形填空有四种类型:按固定比率删词的完形填空、意向删词完形填空、多项选择完形填空和C-test。完形填空与阅读、语法和词汇有着密切的关系,这是完形填空研究中不可避免的问题。
(1)完形填空的定义、起源和发展
基于“闭合”心理格式塔理论,完形填空即是通过回忆不完整的视觉形状从而趋向于闭合.1953年,Wilson Taylor首次使用完形填空法,称为“cloze”。从那时起,许多研究人员和学者使用完形填空来衡量学生的阅读理解力,其前提是完形填空不仅仅是一个完成任务的模式,也涉及从上下文推理(Rye,1982)。而以Oller为代表的一些研究者则认为完形填空是一种既能测试阅读理解力又能测试全球语言能力的有效方法,因为它要求被测试中整合所有相关的系统知识,以便理解整体语境。到目前为止,对完形填空程序的研究仍在进行中,但争议仍然悬而未决。
尽管得到了一些赞誉并且在应用语言学和语言测试中取得一些实证结果,完形填空的效度一直存在较大的争议。然而,大多数研究者都认为完形填空是一种综合性测试,而不是离散点测试。这导致了完形填空在各种语言测试中的应用发生了变化。
(2)完形填空测试内容效度的相关要素
完形填空与语法和词汇有关,这已被广泛接受。完形填空没有语法和词汇是不可能存在的。为了做出正确的选择,考生必须对选项有一个全面而严谨的知识。考生必须掌握基本的语法知识,才能理解话语,找出并解释所提供的线索,选择最合适的单词。正如Darnell(1968)提出的,完形填空可以有效地评估语法和词汇,因为语篇提供了与语法和词汇相关单词的关系和线索。
完形填空也与阅读有关。在完形填空测试中,考生使用阅读技巧来识别单词和理解上下文。实验证明完形填空能有效地评价学生的阅读能力。完形填空与阅读有着密切的关系,这两种测试需要相似的技巧和能力。Guning(1988)还指出,完形填空可以作为阅读测验的替代品,因为如果考生不理解他所读的内容,他就不知道要如何填空。
三.完形填空内容效度的研究综述
在完形填空60多年的发展历程中,效度研究一直是研究的核心。相关研究主要有两种观点。
John·Oller 所代表的一种观点认为完形填空在评估整体语言能力方面是有效的。根据他的定义,语用测试必须是综合性的,因为它试图评估考生同时使用多种语言知识或技能的能力。因此,在语用测试中,为了完成任务,测试者必须将给定的语言序列与必须推断的外部语境联系起来(Oller,1979)。他的理论得到了许多统计证据的支持。Cohen(1980)称完形填空评估整体语言能力,包括语言知识、文本知识和单词知识。Ahluwalia (1992年)还指出完形填空是一种综合的、全球性的语言能力测试。Steinman(2002)甚至认为完形填空可以取代结构测试、词汇测试和阅读理解测试。Azevedo(1998)也列举了完形填空的优点,认为它是以被测试者为导向的,因为它的评估和反馈是同时进行的。
相反,还有另一种关于完形测试的观点。Alderson (1979)指出,完形填空是一个离散的点状测试,因为它仅仅是句子绑定,似乎衡量的是“低阶”而不是“高阶”语言技能。他(1983)认为,很难保持完形填空的效度和信度之间的一致性,因为删除不同的单词会导致不同的结果。此外,Brown(1998)证明了完形填空的效度在19%到83%之间,其信度在3%到96%之间。Namara(2000)认为,完形填空总体上似乎与语法和词汇的离散点测试相同。
到目前为止,关于完形填空是离散还是的语言测试的争论一直没有平息下来,也没有得出任何结论。但研究者更倾向于将完形填空作为一种综合性的语言能力测试。
四.结语
完形填空广泛应用于国内各类别、各级别的语言测试中,其效度如何,尤其是效度中最重要的内容效度如何,具有重要意义。对此方面的研究进行综述,将有助于我们全面了解完形填空的特点,提高语言测试的效度。由于个人精力有限,完形填空的表面效度和结构效度的研究综述可以留待学者继续分析,以得出更加全面的结论。