论文部分内容阅读
[摘要]近年来在教育技术学领域,对教育系统如何产生公平、有吸引力评价感兴趣的人,越来越清晰地认识到我们需要认真思考评价。如果我们希望创造对世界发展做出贡献的教育系统,那么我们需要思考如何通过改变评价实践来实现这个目标。本文对评价在塑造教育实践中的核心角色进行了论述,并指出了改变我们世界所面临的机遇和挑战。
[关键词]评价;电子评价;电子档案袋;ICT
[中图分类号]G43 [文献标识码]A [文章编号]1672-0008(2009)02-0043-05
一、评价推动教育
(一)评价和教育
教学、学习和评价之间有着紧密的联结。评价系统——测验和评分指南——对要学什么的定义比任何语言描述都要更清楚,对课堂层面的课程计划的编制,也比教育志向要更为基本。教师的价值观和能力也传达着政策和成就;不管怎样,评价系统是课堂实践最有效的驱动力。
在英国,有很长一段时间人们相信(cockcroft,1982)评价系统对课程和课堂实践有着直接的影响。在澳大利亚,Barnes,Clarke&Stevens(2000)追踪了高风险评价对改变课堂实践的影响,并宣称有证据表明它们之间存在着直接的因果关系。高风险评价系统界定了可以获得什么,由此得出有价值的知识。高风险评价对学和教产生了深远的影响,这一点并不令人吃惊。对评价系统的决定并不能在真空中产生;英国的部分教育共同体参与到了评价系统的设计,这些决定通常是对值得了解的知识的讨论,以及教授不同年龄学生不同概念和技术的实用性为基础。
(二)评价对成绩的影响
Black和Wiliam(2002)评论了更广泛的文献,表明设计优秀的形成性评价,与学生在广范围传统测量方面的成绩主要收益有关。这个研究结果涉及所有年龄和学科科目。Topping(1998)评论了高等教育写作课上学生之间同伴评价的影响,并发现有着积极影响。EPPI中心(2002)提交的一个大型文献综述表明,定期的总结性评价对后进学生的成绩有着消极影响,但是对优生只有很少的伤害。这些研究提供了强有力的证据,证明好的评价实践产生大的绩效成就。这些成就处于任何教育“疗法”中发现的大量成就之中。类似地差的评价系统对后进生的成绩有着消极的影响。
(三)ICT与评价
ICT搅乱了学习、教学和评价之间的联系,表现在许多截然不同的方式上:ICT改变了大部分学科的研究行为。语言学家分析大量的文本资料,地理学者使用GIS系统,科学家和工程师使用模型包。每个人都使用文字处理器、数据库和电子数据表。学生应该使用当代的研究方法,如果他们不这样做,学校里的学习将变得愈加与对知识发展的理解不相关。学生在课堂上使用功能强大的并且适当的工具来支持学习和问题解决,但是评价知识时,却不使用这些工具。ICT能够支持那些被认为长期需要,但通过传统的教学方法很难达到的教育目标。特别是ICT能够支持高阶思维技能的发展,比如对认知过程的批判、反思,“学会学习”,并且能够促进团队工作和参与扩展项目,ICT能力自身也是评价的目标。
(四)总结性评价和形成性评价的本质
应该区分总结性评价和形成性评价,它们在概念和功能上是不同的。从原理上很容易区分他们。总结性评价发生在一些课程学习的结束,测验被设计为对表现和成绩的总结,高风险的学校毕业的评价,比如GCSE就是一个很好的例子。形成性评价发生在课程中,目的在于促进学生的最后表现,对论文第一稿的评论就是一个例子。
总结性评价和形成性评价在许多维度上都不同,包括:①结果:总结性评价通常对学生和教师来说具有重大意义,然而形成性评价不需要。②交流价值:总结性评价常常在课堂外有意义;形成性评价通常在小群体之外没有交流。③受众:总结性评价受众范围常常很大,学生、教师、父母、学校、雇主和教育系统。形成性评价只有小范围的受众,也许仅仅是学生和教师。④虚假度:在总结性评价中,学生应该集中关注他们完成的最好的;在形成性评价中,学生应更关注他们理解不好的知识。⑤代理:总结性评价也许并不是学生愿意参与的。形成性评价常常由学生积极地选出。⑥确认方法:总结性评价常常根据预测效度来评判;形成性评价根据解开预测效度的有效性来评判。⑦评价的质量:对总结性评价来说,评价方法应该达到一定的信度和效度标准;老师和学生可以协商形成性评价的“信度和效度”。⑧资源需求:对成本和时间的考虑会影响总结性评价。在时间方面,总结性评价时间容易测量;形成性评价是教学不可分割的一部分。⑨知识和知识共同体:总结性评价关于评价什么是很清楚的,共同体共享着对知识本质的观点;关于形成性评价,知识本质的观点可能只有两个人磋商。⑩评价的状况:在总结性评价中,学生可以忽视评价;只有学生利用形成性评价做些什么来提高成绩,才是形成性评价。⑩关注领域:区分表现的认知、社会和情感方面是有用的。总结性评价通常关注认知表现;形成性评价可以蔓延到社会和情感领域。⑿工具类型:总结性评价一般使用结构预先指定的同步书面评价,利用一套普通的规则评分。形成性评价一般使用多种方法,比如作品档案袋,学生草稿作品,学生对他们作品的注解,概念图工具,诊断性面试和诊断性测验。
但是这两种评价有许多交迭的区域:学生可以根据年终考试结果改变学习方法;学生的总结性评价可以为教师、学校和教育系统提供形成性评价;形成性评价总是依靠一些总结性评价类别——反馈和讨论必须基于对当前知识状态的评价;一些总结性评价应该包括受益于形成性评价的能力——学会学习是一个很重要的教育目标,应该被正式地评价;总结性评价应该包括提供形成性评价的能力。
二、如何驱动评价
(一)技术作为社会变革的驱动力
技术是社会变革的一个核心驱动力。Metcalfe定律指出,随着越来越多的人们加入网络,网络的价值发生了引人注目的增长。计算机硬件和软件性能不断改善,并增加了一些特性(比如高质量的视频),这些使得计算机的使用愈加具有魅力,并且很适合用于支持人与人的交互。技术作为驱动力对评价产生许多可能的影响。新技能是工作和社会机能所必须的,这要求我们熟练使用ICT;技术对一些劳动密集型的工作实践有着深远的影响,这些劳动中有些类似于教育评价。评价中ICT的使用才刚刚起步,一些新技术如移动电话提供了巨大的希望,不仅因为他们的无处不在,而且因为新技术成为许多年轻人简单而自然的交流形式。
(二)全球化
全球化也许是最明显的变革驱动力,资本和工作的流动性改变了工作市场的概况,新工作类型的出现和旧工作类型的消失。人们要想成功,就必须不断学习新的技能,并且要适应变革,再训练常常需要能力的再认证,带来的明显结果是更进一步的评价,以及设计适合新职业需求的评价系统。工 作和教育的流动增加了类似的问题。发达世界需要输入技术娴熟的工人,全世界的大学寻求国际学生。这两者中都需要对申请者能力进行认证,需要拒绝那些最不可能成为有效工人的人,或者成功完成课程的人。
全球化对全世界的教育系统有着深远的影响。在高等教育中,Slaughte和Leslie(1997)描述一些国家的大学对“学术资本化”的应对,“学术资本化”是一种全球趋势,把知识看作是一种“产品”来创造和控制,把大学看成是一个尽可能有效地生产知识和更博学的人的组织。跨国公司也推动着变革,对质量控制的强调扩展到工作认证,以及对工人要求的标准。
(三)政府引导的课程和评价改革
目前英国的两个项目可能导致评价实践的根本变革,特别是增加电子评价的使用。一个是DfES的电子评价策略,描绘出了当前考试系统变革的紧密步伐;另一个是Tomlinson(2004)的14-19岁课程和认证改革报告,建议教育规定自身的根本改变。DIES的电子学习策略,将会伴随着评价过程的根本改革。在接下来的五年里,计划开展下列活动:“所有新的认证应该包括出现在屏幕上的评价;设立接受和评价电子档案袋的奖励机构;大多数考试应该在屏幕上可随意使用,对那些有需要的学校,一定的国家课程考试在屏幕上可使用;正准备第一次采用即期GCSE考试;特别为电子传输和评价设计了10个新的资格认证“QCA计划(2004)。Tomlinson Report(2004)将对评价实践提供更基本的挑战。其中临时报告(Tomlinson。2004)确定了现在系统中的许多问题。报告提出单一资格认证框架的建议,在毕业证书的基础上设定四个水平(入门,基础,中阶,高阶),期望学生以适合他们成绩而不是年龄的步调进步。
三、当前电子评价的发展
(一)计算机为基础测验的一些动机
下面是计算机为基础测验的一些理由,不是所有的理由都适用于每次计算机在评价中的使用。①避免剧变:面对当前被测学生数量的增长,维持现有的纸质评价系统不太可能,扫描技术能起作用。②有价值的生存技能:人们需要在日常生活使用计算机,不对评价使用计算机似乎很荒谬。③课程和评价相联系:不允许学生使用专业工具的评价系统,是要求学生以不熟悉且不适应的方式工作。④即期测验:只要学生被认为(或自我判断)准备好了就应该进行测验。⑤学生以不同的步调进步:在美国,高级定位球系统(Advanced Placement system)允许学生在学校里参加大学水平的课程,参加测验并通过的获得大学学分。⑥适应性测验:语言测验和为职业选择测验等课程中,根据参加测验的群体的发展来改变评价系统中采取的任务的难度。⑦更及时的反馈:在要求所有新手教师参加英语、数学和ICT测验的例子中,应试者常常可以立即获得有关成功的信息,以及其表现方面最需要改善的诊断性信息(TeacherTraining Agency,2003)。⑧动机收益:(Richardson,Baird,Ridgway,Pdpley,Shorrocks-Taylor&Swan,2002;Ripley,2004)认为相对于纸质评价,电子评价的易控制性和友好界面更受学生喜欢。⑨为学生和老师提供更好的范例:在南澳大利亚,优秀学生科技课的作品展示在网上。⑩更好的“系统”反馈:主考者报告的学生全套反应数据,可以提高反馈的质量。⑾对商等教育而言更快的信息:大学需要快速获得评价结果。⑿成本:人们通常认为电子评价可以省钱——在线多选测验管理和计分花费很小。如果我们使用仿真等ICT技术改善评价的潜力,那么测验的成本可能增加。
(二)电子评价对当前教育目标的支持
1 使用ICT支持多项选择测试
人们公认这种技术特别适合评价清晰可辨的陈述性知识,评价程序性知识要难一些。MCT的明显优势是可以非常便宜地创造和使用,如果MCT导致课程扭曲,从学生能有效用于工作的概念结构分离,而偏向陈述性知识,过度使用MCT代价将非常高。在达科塔(Dakota)和乔治亚州(Georgia)可以获取基于网络的高风险评价;许多美国高校用于确定进入研究生院校的毕业记录考试(GRE),可以在线获取。
2 用ICT支持当前的英国考试程序
ICT以多种方式改善当前的考试实践:(1)学校考试委员会更好地交流。Tomlinson(2002)指出,ICT通过考试程序中的颁证机构得到广泛使用,电子数据交换(EDI)能够使学校和高校在线提交应试者考试键入和信息,并自动接收结果。(2)支持当前的计分和自我控制过程。ICT能支持在评定等级过程中评分员之间标准相似性的实现,不同类型的学生典型样卷放到网上供记分员参考。通过模板键人分数来确保评分员完成每一部分的评分工作,系统自动从考试卷不同部分汇总分数。(3)代替考卷。学生参加纸质考试,自动扫描考卷的系统在美国被广泛使用。这些系统超越了纸质系统的许多优点。第一,可以避免通过邮寄的方式分配和回收考卷存在安全问题。第二,容易实现得分质量的自我控制。预评分“锚点”考卷可以在评分过程中送给评分员,以确保他们维持标准。
3 在线评价:使GCSE考卷转向电子评价
用基于ICT的测验代替纸质测验并自动评分。是一个有趣的挑战。由于各种原因,纸质测验的一些优点不可替代,因此在屏幕上设置测验,可能带来对评价什么的本质方面的改变。这里用一份GCSE数学试卷的样卷举例说明这些问题:①测量和制图。纸质评价中10%的分数要求使用真实的“工具”来完成,把这些工具转换到屏幕上的一个途径是模拟物理工具,另一种方式是提供CAD或交互式几何包。②数学公式。20%的分数要求学生写下标准键盘不能输入的答案,这包括分数、除法表达式等。③答题步骤和部分得分。纸的格式中几乎所有的问题都包括答题步骤的空间,在最后答案不正确时,总分的30%可以通过答题的步骤获得。再把这翻译成数字格式存在两个问题:步骤获取和分配步骤分。
4 对开放式反应评分
GCSE问题通常要求学生以他们自己的方式回答问题、解释事情。自动评分的一种途径是分析反应的表面特征(Cohen。Ben-Simon&Hovav,2003),比如输入的字数、句子数量、句子长度、低频词使用的数量等。Cohen,Ben-Simon&Hovav(2003)审视了人类和计算机对一系列论文类型的评分,并报告了学生输入的字数与人类评判给出的分数之间的相互关系。在英国不能只使用机器评分的原因有两个:第一,英国文化要求评分方案以对教师和学生有用的方式来描述。第二,这些评分系统对学生的建议将是通过使用更多键盘输入来简单提高他们的分数。第二种可以提高评分质量、降低成本的方法,被用于评价学生在情境中对任务的反应(Sukkarieh。Pulman&Ralkes,2003)。使用源自自然语言处理 的技术,对学生的反应从语法上分析,并使用大量信息提取技术与存储的适当的和不适当的反应进行比较(Cowie&Lehnea,1996)。
(三)ICT支持当前的“新”教育目标
1 世界数学测验的发展
测验被设计用来确认9-13岁之间,数学、科学和技术方面问题解决表现较好的学生,这作为世界数学测验竞技场(World Class Arena)(www.worldelassarena.org)工作的一部分。计算机容易实现新类型的任务呈现。例如,动态呈现显示了时间变量上发生变化的任务,或者呈现学生必须模仿的一个情境视频。计算机的交互性,使得它们能较好适用于过程技能的评价。评价的技能包括:
(1)理解和表现问题。传统的教育目标,比如解释图表的能力,仍然是数学和科学素养的重要技能。计算机允许信息从一种表现形式到另一种的快速和可逆变换,我们可以要求学生解释它们之间的关系。
(2)在科学和数学中评价过程技能。传统意义上,实验室的环境可能存在降低评价可靠性的成分,以及健康和安全问题。一些教育系统不愿意教师进行高风险测验,结果导致科学中的过程技能根本没有被评价。基于计算机的评价,允许以适度成本评价学习科学这些有价值的方面。可以界定的一系列不同的过程技能包括:系统地工作、产生和检验假设、处理复杂数据、测验解决、试图全面和严谨。
2 在第三个关键阶段评价ICT
OCA继续提供资金资助,并着手评价13岁学生的ICT水平。设计这些测验的一个核心原则是,应该测验学生在扩展任务方面的表现(为受众Y创作一个x话题的网页,使用一套资源——数据库,通过email获取“客户”,电子数据表做计划。网页制作工具),而不是一系列子任务上的表现(“使用电子表添加这些数字”)。完全使用计算机呈现任务,并为表现评分。
3 数字档案袋
抽象思维重要,在情境中依赖于实践能力的恰当行为也很重要。把这变成现实课堂,评价系统必须要求学生在许多科目上,表现出全面的能力。如果高风险评价系统未能鼓励这些行为,学生未必愿意将精力集中于学校中的许多工作上。电子档案袋提供了一种促进方式,档案袋有三种截然不同的使用方式:第一种是存储学生作品;第二种是为反思性活动提供促进因素——可能涉及学生的反思、来自同伴和导师的批判性的和创造性的输入;第三种是陈列柜,学生选择的要展示的“最好的作品”(Sehulman,1998)。
创造、设计、反思、修正等能力都是重要的教育目标。通过创造一些作品参与扩展工作部分并成功总结,对这些过程的评价完全合适。档案袋应该提供一系列证明个人能力的证据,也许是Tomlinson Repo(2004)的标题所建议的:学生自我意识——他们自己、他们学习的方式、他们所知道的、如何与他人交流;思考可能的未来,做出有根据的决定。许多问题与档案袋和其他种类课程有关,一是存储的问题——特别是在设计项目和美术作品中,ICT可以解决保持作品图像的问题。二是学生的不正当举止,ICT可以通过要求提交印时戳的中间产品图像来解决。电子档案袋地图直接用于当前领域的概念,并为一些普遍问题提供了实际解决方法(Kimbell,2003)。很多机构都已经使用了档案袋系统;美国高等教育学会(AAHE)档案袋库(www.aahe.org/teaching/portfolio_db.htm)提供了对高等教育方面的电子档案袋项目和资源的简介进行在线搜索的数据库。
四、电子评价面临的机遇和挑战
(一)评价过程技能
1 评价元认知
随着我们走向知识社会,元认知技能的发展越来越重要,他们自身也成为教育目标。当前这些目标是不清楚的。对他们的确切本质或如何评价,在教育共同体内没有形成一致意见。Ridgway,Swan&Burkhardt(2001)证明了在为美国国家科学教育机构开发材料中作为“评价元认知思维”的过程:
(1)知道如何使用知识。网络的存在意味着成功使用它应该是一个教育对象。导航的专门知识或技能,比如学会如何标识有用的资源使搜索变得完善,是很有用的技能,但不及知识本质相关的一套元认知技能重要——不同人出于不同目的如何建构、呈现和使用知识。学生也需要了解他们自己的认识——知道什么和不知道什么,他们自己的知识如何获得、失去和改变——解决问题时,他们如何控制自己的认知过程。“开放网络”的考试与开卷考试并行,这种考试的另一个优点是,与传统考试相比更“可信”,因为一个人很少必须在没有任何资源的情况下解决实际问题。
(2)分析并改进认知过程。交互电子自板提供了在一个问题或模拟上作为整个课堂工作,然后重放并评论一连串行为的能力。通过观察不同解决尝试,可以问学生高水平的问题,如“你如何解决这类问题?”对总结性电子档案袋的需求,可以是对过程反思性分析的尝试。类似的信息通道可以提供学生正确性的反馈或与他们观点相反的反馈。在更低的水平层次,评价学童识别不同面部表情所表达的情绪的能力,可以洞悉他们发展的状况。
(3)支持反思和批判技能。一个重要的高阶技能是评论和改进工作的能力。这可以通过纸笔实现,但是使用ICT比如MS-Word中的“追踪修订”功能,非常容易实现。另一个评价批判性思维的方式是要求学生注解他们的工作,展示他们符合评价标准的地方。同伴评价由于多种原因备受关注,学生如果参与同伴评价,他们必须理解评价的标准,并且必须获得一系列高阶技能,比如抽象思维、发现错误和误解、评论和修改建议。Doiron和Isaac(2002)开发了一个新型的在线同伴评论,设计来补充美国学院四年级医学学生的外科医生加强创伤生命支持课程的评价。他们的系统涉及自我评价、同伴评价、反馈和讨论。健康心理学课程和工程学课程也进行着类似的工作。
(4)用不同思维方式评价能力。移动电话技术提供了通过模拟小组作业对思维方式进行评价的一种手段。每个学生在虚拟环境中的作业,对学生行为反应是预先定义的,虚拟环境中其他“组员”的反应是完全预先指定的。由于许多明显的原因,这个环境是人造的——通过电话(或电子邮件)联络而不是面对面的,动态交互的范围是受限的。然而,这些限制意味着学生可以在相对标准化的情况下被评价,结果可以作为反思形成性评价的一部分重复用于分析和反思。分析参与德·波诺(De Bono)(2000)的“思考帽”活动的能力,就是一个很好明确的例子。
2 评价团队项目
有价值的技能是在团队中有效工作的能力,这要求好的交流技能,理解有效团队工作的标准,理解不同角色,评价自己的工作和他人工作的能力,对形成性和总结性反馈积极回应的能力。团队工作评价是有问题的,原因有许多:问题可能由“社会性懈怠”产生,对不同贡献分配同样的分数;学生欢 迎同伴评级;收集学生表现的精确证据的紧迫的过程。SPARK是一个学术开放的资源项目,设计的目的在于支持团队工作的有效评价,在高等教育中已经用于多种不同的情境,它需要清晰说明团队要执行的任务和评价标准。
3 评价创造力
“创造力”涉及到具有价值的一个新想法的产品或者作品。许多作者已经对分析思维和创造性思维加以区分。分析思维被描述为:线性的、理性的、逻辑的、自觉的和深思熟虑的。创造性思维被描述为:并行的、不受约束的、不合逻辑的、无意识的和混沌的。这些分析思维在特定的领域由知识来改进,以不同的方式呈现信息;也有许多创造性思维的方式,受多种领域的知识和经验影响。创造力要求创造性思维和分析思维密切作用,应该通过对产品的分析,对学生过程的分析来评价。
4 评价交流技能
手机可以更广泛地用于评价。一个简单的例子是,使用手机进行语言学习的听力理解。EVIVA项目使用电话作为第三个关键阶段的ICT评价,以档案袋为基础的口语测验的媒介。学生可以订阅测验,也可以即期测验。电话也用于录制学习里程碑的“声音明信片”,把这些张贴到中心网站。“声音明信片”可以让学生用于支持他们将要展现的档案袋证据的片段。由于语言识别技术仍在提高,我们可以想象这样的情境,通过电话口头提出问题,学生的反应立刻被评分。语言学习的例子中,这可以应用于学习的初级阶段,比如发音、词汇、纠正学生出现的“错误”句子结构。
(二)国家课程与国家评价
Tomlinson Report(2004)强调课程设计和评价的基本问题,并描述了当前系统的许多问题。评价证明教育目标,并对教育实践有较大的影响。需要有更多以学校为基础的评价,和更多以过程为基础的评价,并以高标准继续坚持当前考试过程公平和诚信。学校为基础的评价可以通过外部的计算机为基础的测验得到缓解,电子评价可以扩展能实施的可靠评价的范围,也可以加宽课程和评价设计方面的争论。
电子评价可以降低当前测验造成的损害。目前,每年都产生新的SAT试卷,所有学生回答相同的问题。如果测验的目的是确定一些系统的性能,可以采用更好的方法。如果有一个很大的电子形式的任务库,不同学生收到不同任务设置,课程的覆盖范围可以更好,也将不需要报告学生的个体分数。其优点是可以使用更多的任务类型,将避免教师“为SAT而教”所造成的当前的误区。
(三)电子评价存在的障碍
(1)证实电子评价的可靠性。在某些领域,比如对能力的评价,电子评价的案例是不证自明的。在其他领域,新的测验编制的正确性;与现存测验相比新测验的可靠性;所需要的教育水准等有待论证。
(2)构建系统能力。迫切需要构建电子评价的能力,涉及到测验设计、测验传输和处理、学校的专门知识或技能。
(3)任务和测验设计。相对于许多人有能力创造传统测验而言,很少有人具有创造电子评价的专长。迫切需要创造新任务类型和探究它们的信度和效度。
(4)确立技术标准。目前存在三套技术标准,我们需要意见一致的文件,学生的特殊需求必须处理。
(5)ICT基础设施。需要好的宽带系统。目前,大约40%的小学,100%的中学有宽带接入,但并不是在线评价所必须的水平(Rt Hon Charles Clarke MP,2004)。
(6)考试过程。电子评价对纸质考试权威提出了严重的挑战。他们需要开发一个健全的技术基础设施,以及发展使这些系统有效运行的能力。
(7)主考者和考试。高质量训练是可靠评价的一个必不可少的方面。Tomlinson建议“评分和主考者角色的彻底专业化,包括课程评分”,报告提出了许多明确的建议,如何通过专业发展、鉴定合格、适当的专业奖金制度等制度化手段。
(8)学校和考试中心专门知识。这为专业发展显示了巨大的挑战,学校需要建立健全的系统。
(9)抄袭。对所有的评价系统提出了一个严重的威胁(Ridgway&Smith,2004)。这些威胁涉及直接从网上下载作业,评价系统需要抵抗这些攻击。
(10)公平问题。电子评价不创造“数字鸿沟”是很重要的。
(四)通过电子档案袋的可靠教师评价
教育系统的一个关键决定是精确确定学生应该花费多少时间用于扩展项目,多少时间以更简短的活动为基础。相关的一个决定是,实现学校里档案袋评价系统,与同步的外部评价之间平衡。关键问题是建立学校为基础的健全可靠的评价系统,强调不同系统使用的极限是具有价值的,在有些系统中,所有的评价都是外部评价。有些系统——如澳大利亚的昆士兰——所有的评价都是以学校为基础的,昆士兰提供大规模的训练教师的系统,来减轻他们的评价。ICT能促进这个过程,可以把所有学生提交的放到网上,确立减轻缓和的系统,外部界定的测验能用于指导自我控制过程。
本文责编 陶侃
[关键词]评价;电子评价;电子档案袋;ICT
[中图分类号]G43 [文献标识码]A [文章编号]1672-0008(2009)02-0043-05
一、评价推动教育
(一)评价和教育
教学、学习和评价之间有着紧密的联结。评价系统——测验和评分指南——对要学什么的定义比任何语言描述都要更清楚,对课堂层面的课程计划的编制,也比教育志向要更为基本。教师的价值观和能力也传达着政策和成就;不管怎样,评价系统是课堂实践最有效的驱动力。
在英国,有很长一段时间人们相信(cockcroft,1982)评价系统对课程和课堂实践有着直接的影响。在澳大利亚,Barnes,Clarke&Stevens(2000)追踪了高风险评价对改变课堂实践的影响,并宣称有证据表明它们之间存在着直接的因果关系。高风险评价系统界定了可以获得什么,由此得出有价值的知识。高风险评价对学和教产生了深远的影响,这一点并不令人吃惊。对评价系统的决定并不能在真空中产生;英国的部分教育共同体参与到了评价系统的设计,这些决定通常是对值得了解的知识的讨论,以及教授不同年龄学生不同概念和技术的实用性为基础。
(二)评价对成绩的影响
Black和Wiliam(2002)评论了更广泛的文献,表明设计优秀的形成性评价,与学生在广范围传统测量方面的成绩主要收益有关。这个研究结果涉及所有年龄和学科科目。Topping(1998)评论了高等教育写作课上学生之间同伴评价的影响,并发现有着积极影响。EPPI中心(2002)提交的一个大型文献综述表明,定期的总结性评价对后进学生的成绩有着消极影响,但是对优生只有很少的伤害。这些研究提供了强有力的证据,证明好的评价实践产生大的绩效成就。这些成就处于任何教育“疗法”中发现的大量成就之中。类似地差的评价系统对后进生的成绩有着消极的影响。
(三)ICT与评价
ICT搅乱了学习、教学和评价之间的联系,表现在许多截然不同的方式上:ICT改变了大部分学科的研究行为。语言学家分析大量的文本资料,地理学者使用GIS系统,科学家和工程师使用模型包。每个人都使用文字处理器、数据库和电子数据表。学生应该使用当代的研究方法,如果他们不这样做,学校里的学习将变得愈加与对知识发展的理解不相关。学生在课堂上使用功能强大的并且适当的工具来支持学习和问题解决,但是评价知识时,却不使用这些工具。ICT能够支持那些被认为长期需要,但通过传统的教学方法很难达到的教育目标。特别是ICT能够支持高阶思维技能的发展,比如对认知过程的批判、反思,“学会学习”,并且能够促进团队工作和参与扩展项目,ICT能力自身也是评价的目标。
(四)总结性评价和形成性评价的本质
应该区分总结性评价和形成性评价,它们在概念和功能上是不同的。从原理上很容易区分他们。总结性评价发生在一些课程学习的结束,测验被设计为对表现和成绩的总结,高风险的学校毕业的评价,比如GCSE就是一个很好的例子。形成性评价发生在课程中,目的在于促进学生的最后表现,对论文第一稿的评论就是一个例子。
总结性评价和形成性评价在许多维度上都不同,包括:①结果:总结性评价通常对学生和教师来说具有重大意义,然而形成性评价不需要。②交流价值:总结性评价常常在课堂外有意义;形成性评价通常在小群体之外没有交流。③受众:总结性评价受众范围常常很大,学生、教师、父母、学校、雇主和教育系统。形成性评价只有小范围的受众,也许仅仅是学生和教师。④虚假度:在总结性评价中,学生应该集中关注他们完成的最好的;在形成性评价中,学生应更关注他们理解不好的知识。⑤代理:总结性评价也许并不是学生愿意参与的。形成性评价常常由学生积极地选出。⑥确认方法:总结性评价常常根据预测效度来评判;形成性评价根据解开预测效度的有效性来评判。⑦评价的质量:对总结性评价来说,评价方法应该达到一定的信度和效度标准;老师和学生可以协商形成性评价的“信度和效度”。⑧资源需求:对成本和时间的考虑会影响总结性评价。在时间方面,总结性评价时间容易测量;形成性评价是教学不可分割的一部分。⑨知识和知识共同体:总结性评价关于评价什么是很清楚的,共同体共享着对知识本质的观点;关于形成性评价,知识本质的观点可能只有两个人磋商。⑩评价的状况:在总结性评价中,学生可以忽视评价;只有学生利用形成性评价做些什么来提高成绩,才是形成性评价。⑩关注领域:区分表现的认知、社会和情感方面是有用的。总结性评价通常关注认知表现;形成性评价可以蔓延到社会和情感领域。⑿工具类型:总结性评价一般使用结构预先指定的同步书面评价,利用一套普通的规则评分。形成性评价一般使用多种方法,比如作品档案袋,学生草稿作品,学生对他们作品的注解,概念图工具,诊断性面试和诊断性测验。
但是这两种评价有许多交迭的区域:学生可以根据年终考试结果改变学习方法;学生的总结性评价可以为教师、学校和教育系统提供形成性评价;形成性评价总是依靠一些总结性评价类别——反馈和讨论必须基于对当前知识状态的评价;一些总结性评价应该包括受益于形成性评价的能力——学会学习是一个很重要的教育目标,应该被正式地评价;总结性评价应该包括提供形成性评价的能力。
二、如何驱动评价
(一)技术作为社会变革的驱动力
技术是社会变革的一个核心驱动力。Metcalfe定律指出,随着越来越多的人们加入网络,网络的价值发生了引人注目的增长。计算机硬件和软件性能不断改善,并增加了一些特性(比如高质量的视频),这些使得计算机的使用愈加具有魅力,并且很适合用于支持人与人的交互。技术作为驱动力对评价产生许多可能的影响。新技能是工作和社会机能所必须的,这要求我们熟练使用ICT;技术对一些劳动密集型的工作实践有着深远的影响,这些劳动中有些类似于教育评价。评价中ICT的使用才刚刚起步,一些新技术如移动电话提供了巨大的希望,不仅因为他们的无处不在,而且因为新技术成为许多年轻人简单而自然的交流形式。
(二)全球化
全球化也许是最明显的变革驱动力,资本和工作的流动性改变了工作市场的概况,新工作类型的出现和旧工作类型的消失。人们要想成功,就必须不断学习新的技能,并且要适应变革,再训练常常需要能力的再认证,带来的明显结果是更进一步的评价,以及设计适合新职业需求的评价系统。工 作和教育的流动增加了类似的问题。发达世界需要输入技术娴熟的工人,全世界的大学寻求国际学生。这两者中都需要对申请者能力进行认证,需要拒绝那些最不可能成为有效工人的人,或者成功完成课程的人。
全球化对全世界的教育系统有着深远的影响。在高等教育中,Slaughte和Leslie(1997)描述一些国家的大学对“学术资本化”的应对,“学术资本化”是一种全球趋势,把知识看作是一种“产品”来创造和控制,把大学看成是一个尽可能有效地生产知识和更博学的人的组织。跨国公司也推动着变革,对质量控制的强调扩展到工作认证,以及对工人要求的标准。
(三)政府引导的课程和评价改革
目前英国的两个项目可能导致评价实践的根本变革,特别是增加电子评价的使用。一个是DfES的电子评价策略,描绘出了当前考试系统变革的紧密步伐;另一个是Tomlinson(2004)的14-19岁课程和认证改革报告,建议教育规定自身的根本改变。DIES的电子学习策略,将会伴随着评价过程的根本改革。在接下来的五年里,计划开展下列活动:“所有新的认证应该包括出现在屏幕上的评价;设立接受和评价电子档案袋的奖励机构;大多数考试应该在屏幕上可随意使用,对那些有需要的学校,一定的国家课程考试在屏幕上可使用;正准备第一次采用即期GCSE考试;特别为电子传输和评价设计了10个新的资格认证“QCA计划(2004)。Tomlinson Report(2004)将对评价实践提供更基本的挑战。其中临时报告(Tomlinson。2004)确定了现在系统中的许多问题。报告提出单一资格认证框架的建议,在毕业证书的基础上设定四个水平(入门,基础,中阶,高阶),期望学生以适合他们成绩而不是年龄的步调进步。
三、当前电子评价的发展
(一)计算机为基础测验的一些动机
下面是计算机为基础测验的一些理由,不是所有的理由都适用于每次计算机在评价中的使用。①避免剧变:面对当前被测学生数量的增长,维持现有的纸质评价系统不太可能,扫描技术能起作用。②有价值的生存技能:人们需要在日常生活使用计算机,不对评价使用计算机似乎很荒谬。③课程和评价相联系:不允许学生使用专业工具的评价系统,是要求学生以不熟悉且不适应的方式工作。④即期测验:只要学生被认为(或自我判断)准备好了就应该进行测验。⑤学生以不同的步调进步:在美国,高级定位球系统(Advanced Placement system)允许学生在学校里参加大学水平的课程,参加测验并通过的获得大学学分。⑥适应性测验:语言测验和为职业选择测验等课程中,根据参加测验的群体的发展来改变评价系统中采取的任务的难度。⑦更及时的反馈:在要求所有新手教师参加英语、数学和ICT测验的例子中,应试者常常可以立即获得有关成功的信息,以及其表现方面最需要改善的诊断性信息(TeacherTraining Agency,2003)。⑧动机收益:(Richardson,Baird,Ridgway,Pdpley,Shorrocks-Taylor&Swan,2002;Ripley,2004)认为相对于纸质评价,电子评价的易控制性和友好界面更受学生喜欢。⑨为学生和老师提供更好的范例:在南澳大利亚,优秀学生科技课的作品展示在网上。⑩更好的“系统”反馈:主考者报告的学生全套反应数据,可以提高反馈的质量。⑾对商等教育而言更快的信息:大学需要快速获得评价结果。⑿成本:人们通常认为电子评价可以省钱——在线多选测验管理和计分花费很小。如果我们使用仿真等ICT技术改善评价的潜力,那么测验的成本可能增加。
(二)电子评价对当前教育目标的支持
1 使用ICT支持多项选择测试
人们公认这种技术特别适合评价清晰可辨的陈述性知识,评价程序性知识要难一些。MCT的明显优势是可以非常便宜地创造和使用,如果MCT导致课程扭曲,从学生能有效用于工作的概念结构分离,而偏向陈述性知识,过度使用MCT代价将非常高。在达科塔(Dakota)和乔治亚州(Georgia)可以获取基于网络的高风险评价;许多美国高校用于确定进入研究生院校的毕业记录考试(GRE),可以在线获取。
2 用ICT支持当前的英国考试程序
ICT以多种方式改善当前的考试实践:(1)学校考试委员会更好地交流。Tomlinson(2002)指出,ICT通过考试程序中的颁证机构得到广泛使用,电子数据交换(EDI)能够使学校和高校在线提交应试者考试键入和信息,并自动接收结果。(2)支持当前的计分和自我控制过程。ICT能支持在评定等级过程中评分员之间标准相似性的实现,不同类型的学生典型样卷放到网上供记分员参考。通过模板键人分数来确保评分员完成每一部分的评分工作,系统自动从考试卷不同部分汇总分数。(3)代替考卷。学生参加纸质考试,自动扫描考卷的系统在美国被广泛使用。这些系统超越了纸质系统的许多优点。第一,可以避免通过邮寄的方式分配和回收考卷存在安全问题。第二,容易实现得分质量的自我控制。预评分“锚点”考卷可以在评分过程中送给评分员,以确保他们维持标准。
3 在线评价:使GCSE考卷转向电子评价
用基于ICT的测验代替纸质测验并自动评分。是一个有趣的挑战。由于各种原因,纸质测验的一些优点不可替代,因此在屏幕上设置测验,可能带来对评价什么的本质方面的改变。这里用一份GCSE数学试卷的样卷举例说明这些问题:①测量和制图。纸质评价中10%的分数要求使用真实的“工具”来完成,把这些工具转换到屏幕上的一个途径是模拟物理工具,另一种方式是提供CAD或交互式几何包。②数学公式。20%的分数要求学生写下标准键盘不能输入的答案,这包括分数、除法表达式等。③答题步骤和部分得分。纸的格式中几乎所有的问题都包括答题步骤的空间,在最后答案不正确时,总分的30%可以通过答题的步骤获得。再把这翻译成数字格式存在两个问题:步骤获取和分配步骤分。
4 对开放式反应评分
GCSE问题通常要求学生以他们自己的方式回答问题、解释事情。自动评分的一种途径是分析反应的表面特征(Cohen。Ben-Simon&Hovav,2003),比如输入的字数、句子数量、句子长度、低频词使用的数量等。Cohen,Ben-Simon&Hovav(2003)审视了人类和计算机对一系列论文类型的评分,并报告了学生输入的字数与人类评判给出的分数之间的相互关系。在英国不能只使用机器评分的原因有两个:第一,英国文化要求评分方案以对教师和学生有用的方式来描述。第二,这些评分系统对学生的建议将是通过使用更多键盘输入来简单提高他们的分数。第二种可以提高评分质量、降低成本的方法,被用于评价学生在情境中对任务的反应(Sukkarieh。Pulman&Ralkes,2003)。使用源自自然语言处理 的技术,对学生的反应从语法上分析,并使用大量信息提取技术与存储的适当的和不适当的反应进行比较(Cowie&Lehnea,1996)。
(三)ICT支持当前的“新”教育目标
1 世界数学测验的发展
测验被设计用来确认9-13岁之间,数学、科学和技术方面问题解决表现较好的学生,这作为世界数学测验竞技场(World Class Arena)(www.worldelassarena.org)工作的一部分。计算机容易实现新类型的任务呈现。例如,动态呈现显示了时间变量上发生变化的任务,或者呈现学生必须模仿的一个情境视频。计算机的交互性,使得它们能较好适用于过程技能的评价。评价的技能包括:
(1)理解和表现问题。传统的教育目标,比如解释图表的能力,仍然是数学和科学素养的重要技能。计算机允许信息从一种表现形式到另一种的快速和可逆变换,我们可以要求学生解释它们之间的关系。
(2)在科学和数学中评价过程技能。传统意义上,实验室的环境可能存在降低评价可靠性的成分,以及健康和安全问题。一些教育系统不愿意教师进行高风险测验,结果导致科学中的过程技能根本没有被评价。基于计算机的评价,允许以适度成本评价学习科学这些有价值的方面。可以界定的一系列不同的过程技能包括:系统地工作、产生和检验假设、处理复杂数据、测验解决、试图全面和严谨。
2 在第三个关键阶段评价ICT
OCA继续提供资金资助,并着手评价13岁学生的ICT水平。设计这些测验的一个核心原则是,应该测验学生在扩展任务方面的表现(为受众Y创作一个x话题的网页,使用一套资源——数据库,通过email获取“客户”,电子数据表做计划。网页制作工具),而不是一系列子任务上的表现(“使用电子表添加这些数字”)。完全使用计算机呈现任务,并为表现评分。
3 数字档案袋
抽象思维重要,在情境中依赖于实践能力的恰当行为也很重要。把这变成现实课堂,评价系统必须要求学生在许多科目上,表现出全面的能力。如果高风险评价系统未能鼓励这些行为,学生未必愿意将精力集中于学校中的许多工作上。电子档案袋提供了一种促进方式,档案袋有三种截然不同的使用方式:第一种是存储学生作品;第二种是为反思性活动提供促进因素——可能涉及学生的反思、来自同伴和导师的批判性的和创造性的输入;第三种是陈列柜,学生选择的要展示的“最好的作品”(Sehulman,1998)。
创造、设计、反思、修正等能力都是重要的教育目标。通过创造一些作品参与扩展工作部分并成功总结,对这些过程的评价完全合适。档案袋应该提供一系列证明个人能力的证据,也许是Tomlinson Repo(2004)的标题所建议的:学生自我意识——他们自己、他们学习的方式、他们所知道的、如何与他人交流;思考可能的未来,做出有根据的决定。许多问题与档案袋和其他种类课程有关,一是存储的问题——特别是在设计项目和美术作品中,ICT可以解决保持作品图像的问题。二是学生的不正当举止,ICT可以通过要求提交印时戳的中间产品图像来解决。电子档案袋地图直接用于当前领域的概念,并为一些普遍问题提供了实际解决方法(Kimbell,2003)。很多机构都已经使用了档案袋系统;美国高等教育学会(AAHE)档案袋库(www.aahe.org/teaching/portfolio_db.htm)提供了对高等教育方面的电子档案袋项目和资源的简介进行在线搜索的数据库。
四、电子评价面临的机遇和挑战
(一)评价过程技能
1 评价元认知
随着我们走向知识社会,元认知技能的发展越来越重要,他们自身也成为教育目标。当前这些目标是不清楚的。对他们的确切本质或如何评价,在教育共同体内没有形成一致意见。Ridgway,Swan&Burkhardt(2001)证明了在为美国国家科学教育机构开发材料中作为“评价元认知思维”的过程:
(1)知道如何使用知识。网络的存在意味着成功使用它应该是一个教育对象。导航的专门知识或技能,比如学会如何标识有用的资源使搜索变得完善,是很有用的技能,但不及知识本质相关的一套元认知技能重要——不同人出于不同目的如何建构、呈现和使用知识。学生也需要了解他们自己的认识——知道什么和不知道什么,他们自己的知识如何获得、失去和改变——解决问题时,他们如何控制自己的认知过程。“开放网络”的考试与开卷考试并行,这种考试的另一个优点是,与传统考试相比更“可信”,因为一个人很少必须在没有任何资源的情况下解决实际问题。
(2)分析并改进认知过程。交互电子自板提供了在一个问题或模拟上作为整个课堂工作,然后重放并评论一连串行为的能力。通过观察不同解决尝试,可以问学生高水平的问题,如“你如何解决这类问题?”对总结性电子档案袋的需求,可以是对过程反思性分析的尝试。类似的信息通道可以提供学生正确性的反馈或与他们观点相反的反馈。在更低的水平层次,评价学童识别不同面部表情所表达的情绪的能力,可以洞悉他们发展的状况。
(3)支持反思和批判技能。一个重要的高阶技能是评论和改进工作的能力。这可以通过纸笔实现,但是使用ICT比如MS-Word中的“追踪修订”功能,非常容易实现。另一个评价批判性思维的方式是要求学生注解他们的工作,展示他们符合评价标准的地方。同伴评价由于多种原因备受关注,学生如果参与同伴评价,他们必须理解评价的标准,并且必须获得一系列高阶技能,比如抽象思维、发现错误和误解、评论和修改建议。Doiron和Isaac(2002)开发了一个新型的在线同伴评论,设计来补充美国学院四年级医学学生的外科医生加强创伤生命支持课程的评价。他们的系统涉及自我评价、同伴评价、反馈和讨论。健康心理学课程和工程学课程也进行着类似的工作。
(4)用不同思维方式评价能力。移动电话技术提供了通过模拟小组作业对思维方式进行评价的一种手段。每个学生在虚拟环境中的作业,对学生行为反应是预先定义的,虚拟环境中其他“组员”的反应是完全预先指定的。由于许多明显的原因,这个环境是人造的——通过电话(或电子邮件)联络而不是面对面的,动态交互的范围是受限的。然而,这些限制意味着学生可以在相对标准化的情况下被评价,结果可以作为反思形成性评价的一部分重复用于分析和反思。分析参与德·波诺(De Bono)(2000)的“思考帽”活动的能力,就是一个很好明确的例子。
2 评价团队项目
有价值的技能是在团队中有效工作的能力,这要求好的交流技能,理解有效团队工作的标准,理解不同角色,评价自己的工作和他人工作的能力,对形成性和总结性反馈积极回应的能力。团队工作评价是有问题的,原因有许多:问题可能由“社会性懈怠”产生,对不同贡献分配同样的分数;学生欢 迎同伴评级;收集学生表现的精确证据的紧迫的过程。SPARK是一个学术开放的资源项目,设计的目的在于支持团队工作的有效评价,在高等教育中已经用于多种不同的情境,它需要清晰说明团队要执行的任务和评价标准。
3 评价创造力
“创造力”涉及到具有价值的一个新想法的产品或者作品。许多作者已经对分析思维和创造性思维加以区分。分析思维被描述为:线性的、理性的、逻辑的、自觉的和深思熟虑的。创造性思维被描述为:并行的、不受约束的、不合逻辑的、无意识的和混沌的。这些分析思维在特定的领域由知识来改进,以不同的方式呈现信息;也有许多创造性思维的方式,受多种领域的知识和经验影响。创造力要求创造性思维和分析思维密切作用,应该通过对产品的分析,对学生过程的分析来评价。
4 评价交流技能
手机可以更广泛地用于评价。一个简单的例子是,使用手机进行语言学习的听力理解。EVIVA项目使用电话作为第三个关键阶段的ICT评价,以档案袋为基础的口语测验的媒介。学生可以订阅测验,也可以即期测验。电话也用于录制学习里程碑的“声音明信片”,把这些张贴到中心网站。“声音明信片”可以让学生用于支持他们将要展现的档案袋证据的片段。由于语言识别技术仍在提高,我们可以想象这样的情境,通过电话口头提出问题,学生的反应立刻被评分。语言学习的例子中,这可以应用于学习的初级阶段,比如发音、词汇、纠正学生出现的“错误”句子结构。
(二)国家课程与国家评价
Tomlinson Report(2004)强调课程设计和评价的基本问题,并描述了当前系统的许多问题。评价证明教育目标,并对教育实践有较大的影响。需要有更多以学校为基础的评价,和更多以过程为基础的评价,并以高标准继续坚持当前考试过程公平和诚信。学校为基础的评价可以通过外部的计算机为基础的测验得到缓解,电子评价可以扩展能实施的可靠评价的范围,也可以加宽课程和评价设计方面的争论。
电子评价可以降低当前测验造成的损害。目前,每年都产生新的SAT试卷,所有学生回答相同的问题。如果测验的目的是确定一些系统的性能,可以采用更好的方法。如果有一个很大的电子形式的任务库,不同学生收到不同任务设置,课程的覆盖范围可以更好,也将不需要报告学生的个体分数。其优点是可以使用更多的任务类型,将避免教师“为SAT而教”所造成的当前的误区。
(三)电子评价存在的障碍
(1)证实电子评价的可靠性。在某些领域,比如对能力的评价,电子评价的案例是不证自明的。在其他领域,新的测验编制的正确性;与现存测验相比新测验的可靠性;所需要的教育水准等有待论证。
(2)构建系统能力。迫切需要构建电子评价的能力,涉及到测验设计、测验传输和处理、学校的专门知识或技能。
(3)任务和测验设计。相对于许多人有能力创造传统测验而言,很少有人具有创造电子评价的专长。迫切需要创造新任务类型和探究它们的信度和效度。
(4)确立技术标准。目前存在三套技术标准,我们需要意见一致的文件,学生的特殊需求必须处理。
(5)ICT基础设施。需要好的宽带系统。目前,大约40%的小学,100%的中学有宽带接入,但并不是在线评价所必须的水平(Rt Hon Charles Clarke MP,2004)。
(6)考试过程。电子评价对纸质考试权威提出了严重的挑战。他们需要开发一个健全的技术基础设施,以及发展使这些系统有效运行的能力。
(7)主考者和考试。高质量训练是可靠评价的一个必不可少的方面。Tomlinson建议“评分和主考者角色的彻底专业化,包括课程评分”,报告提出了许多明确的建议,如何通过专业发展、鉴定合格、适当的专业奖金制度等制度化手段。
(8)学校和考试中心专门知识。这为专业发展显示了巨大的挑战,学校需要建立健全的系统。
(9)抄袭。对所有的评价系统提出了一个严重的威胁(Ridgway&Smith,2004)。这些威胁涉及直接从网上下载作业,评价系统需要抵抗这些攻击。
(10)公平问题。电子评价不创造“数字鸿沟”是很重要的。
(四)通过电子档案袋的可靠教师评价
教育系统的一个关键决定是精确确定学生应该花费多少时间用于扩展项目,多少时间以更简短的活动为基础。相关的一个决定是,实现学校里档案袋评价系统,与同步的外部评价之间平衡。关键问题是建立学校为基础的健全可靠的评价系统,强调不同系统使用的极限是具有价值的,在有些系统中,所有的评价都是外部评价。有些系统——如澳大利亚的昆士兰——所有的评价都是以学校为基础的,昆士兰提供大规模的训练教师的系统,来减轻他们的评价。ICT能促进这个过程,可以把所有学生提交的放到网上,确立减轻缓和的系统,外部界定的测验能用于指导自我控制过程。
本文责编 陶侃