国际大规模教育评价的经验与趋势

来源 :中小学信息技术教育 | 被引量 : 0次 | 上传用户:huiz_CSU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  近年来,大规模教育评价成为国际教育研究与实践领域广泛关注的问题。大规模教育评价是指通过抽取目标测试群体中的代表性样本,对样本学生进行学业成就和相关影响因素的分析,为监测不同国家(地区)的教育结果提供统一的量尺,并为教育政策的制定提供参考。当前国际上有影响力的大规模教育评价项目主要有:国际学生评价项目(Programme for International Student Assessment,PISA),国际数学与科学趋势研究(Trend of International Mathematics and Science Study,TIMSS),国际成人能力评估项目(Programme for the International Assessment of Adult Competencies,PIAAC)等。PISA因具有评价理念先进、参与国家较多、评价流程设计完善等特点,是国际大规模教育评价的代表性项目。本文具体介绍PISA的主要经验、做法以及发展的最新趋势,以期为我国大规模教育评价提供借鉴。
  PISA项目简介
  PISA由世界经济合作组织(OECD)于1997年创立,主要基于一个共同的、国际性的框架测评学生的学业成就,以此监测各个国家(地区)教育系统的产出(Outcomes)[1]。基于国际统一的测量尺度,能在横向维度反映一个国家该阶段教育所处的相对位置,为教育政策的制定提供更加多元的参考途径。PISA测评的对象是15岁左右的学生,主要测试内容领域是数学素养、阅读素养、科学素养,测试每三年举行一次,每次测试侧重一个学科领域,三个主要内容领域9年完成一次循环测试。除了三个主要内容领域,PISA测试还会关注其他领域,比如问题解决、金融素养、合作问题解决、全球意识等。
  PISA并不是第一个国际性的大规模学生成就测验。在PISA开展之初,国际教育成就评价协会(IEA)、ETS等组织主持的大规模评价项目取得了丰富的成效。但是这些项目局限于部分学科的学业成就测评,由于早期参与国家的数量有限,在一定程度上限制了测验的可比较性。更重要的是,这些项目都是以课程内容为基础,不同国家的课程与教学的差异决定了评价框架只能建立在参与国课程的共同部分和基础部分之上,忽略了课程与教学的多元化、个性化。PISA成功地吸取了这些项目的经验,在其建立之初呈现以下几个方面的特色[2]。(1)PISA根源于各国政府对自身教育监测的需要,基于实际数据与证据,为政府教育政策的制定提供参考。(2)PISA测评的周期性使得各国政府能定期监测核心领域的发展变化情况。(3)PISA测评对象是15岁左右的学生,该阶段的学生临近义务教育末期,监测该阶段的学生学习结果反映了一个国家义务教育阶段总的状况,也反映了为适应未来学习与生活的学生对知识与技能的掌握情况。(4)PISA强调素养的测验,而不是基于参与国课程与教学的共同部分和基础部分设计测评框架,PISA认为这是其区别其他国际大规模教育评价的显著特征。
  PISA的主要经验
  1. 侧重于考查适应未来所需的能力与素养
  参与PISA测试的国家和地区课程目标、教学形态各异,PISA难以依据各国的课程标准定义测试的内容与框架,因此开创性地提出测试学生素养(Literacy)的评价理念。PISA从国家与社会人类资本发展的视角,认为未来公民应该掌握与个人、社会、经济财富相关的知识、技能、能力以及其他属性,其所测量的素养跨越学科、跨越国界,强调运用所学知识和技能,有效进行分析、推理、交流,在各种情境中解决和解释问题[3]。PISA关于素养的测量较直观地体现于内容领域的评价框架设计,比如PISA2015关于科学的素养框架应包括科学背景、科学知识、科学能力、科学态度四个方面,数学素养框架包括数学过程、数学内容、数学情境三个方面。PISA基于素养的测试理念不仅与选拔性的考试有本质区别,也与基于课程与教学标准达成的诊断性评价、形成性评价不同。PISA认为:现代经济形态偏好于个体“能做什么”,而不是“知道什么”,评价学生的素养与此变革是相一致的[4]。
  2. 关注影响学业成就的背景因素
  学生的学业成就会受到家庭环境、学校环境的影响,也与学生自身的动机、态度、情感等因素紧密关联,大规模教育评价一般会关注影响学业成就的背景因素。PISA开发了学生问卷、父母亲问卷、校长问卷、教师问卷,调查影响学业成就的家庭背景、学习方法、学习环境、教学策略等因素。背景问卷中所包含的各种量表需要精心的设计和严格的测量学指标检验,基于量表的测量结果能提供各种指标反映学生身心发展情况,能提供反映家庭环境与学校环境现状的各种指数。丰富的背景因素数据能用于研究各种因素与学业成就之间的关系,诊断、分析影响学业成就的原因,揭示学业成就差异与变化背后的潜在规律,为诊断教育现状、改进教学绩效、完善教育政策提供客观的证据支撑。
  3. 采用复杂的抽样设计
  出于测验成本的考虑,大规模评价项目都会从测试目标总体中抽取代表性的样本,通过样本的测验推论目标总体的情况。参与PISA测试的大部分国家都采用两阶段抽样设计方案,第一阶段采用PPS(Probability Proportional to Size)抽样技术[5],按照规模大小成比例抽取学校,每个国家至少抽取150所学校;第二阶段在样本学校内随机抽取学生,每所学校抽取42名学生。PISA的分层抽样设计提高了抽样的效率,确保了样表的代表性,能满足特定国家不同的抽样设计需要。此外,PISA的抽样还体现在测试内容抽样方面。大规模测验需要足够多的试题,以确保对测试内容的代表性,但每次测验的时间有限,因此产生有限的测验时间和宽泛的测试内容之间的矛盾。PISA主要采用不完全平衡矩阵抽样组织题册,将覆盖学科领域的所有试题分成几个小的题册,每个小题册经过等值处理后,让每位学生接受其中一套小题册的测试,以此减少每位学生需要测试的试题,同时确保对学生能力的准确估计。   4. 确保横向与纵向的可比较性
  PISA被世界各国广泛认可的重要原因之一是它为各国教育之间的比较提供了统一的量尺,建立这种统一的量尺并不是让所有参与测试的学生完成同一套试卷,它涉及较复杂的测验设计和教育测量技术,即等值技术。为确保测验内容的代表性,PISA采用矩阵抽样技术组织测试题册,这将导致不同的学生可能接受不同的试题测试。因此,在估计学生的能力之前,需要利用等值技术将不同题册的试题标定到统一量尺上,即需要将项目的难度参数标定到同一尺度上,然后对学生的能力进行估计,当项目难度参数统一尺度之后,所估计的学生能力值也就具有可比性,确保了横向层面各个国家(地区)测验结果的可比性。在纵向层面,PISA主要采用在不同次测验中锚定共同题的方法建立统一量尺,确保了不同次测验分数之间的可比性,为各个国家(地区)分析不同年度学生成就的发展与变化情况提供了可能。这里仅简要描述了PISA利用等值技术确保横向层面各个国家之间和纵向层面同一国家不同次测验之间可比性的基本原理,在PISA实际测试工作中,所采用的方法、过程与此相比更加复杂。
  5. 确保测验的公平性
  参与PISA测试的国家语言、文化迥异,如果试题设计不当,学生很容易因为语言文化的差异造成对试题情境的理解偏差,从而导致测验偏差。为确保测验的公平性,PISA在试题情境设计时会考虑情境的通适性,设计的情境不能只适应于部分国家或部分文化语境;在试题翻译时会多次来回翻译,确保翻译的准确性和跨文化环境的适应性。此外,PISA初步完成试题开发之后,会选取参与国(地区)的学生进行试测,根据试测结果分析试题特征以及试题特征在不同群体之间的表现差异[6],检验项目的功能差异,确保学生分数变异仅体现自身能力水平的差异,不受其他无关因素的影响。根据统计分析的结果,PISA会进一步删除、修订表现较差的试题,确保试题对所有学生都公平。
  6. 提供多元化的评价报告
  由于系统性的评价设计和丰富的数据基础,PISA能提供丰富、多元化的评价报告,主要有学科领域报告、国家报告和特定专题报告三大类。学科领域报告是PISA每次测验的主要报告,该主报告会提供多种语言版本,描述每个学科领域学生平均表现、发展趋势、不同水平表现、性别差异等,呈现各个学科领域在本次测验的总体测验结果[7]。国家报告描述参与测试的国家(地区)各测试领域的整体情况,总结学生在本次测验中的相对位置,展示本国学生表现较好的方面和较差的方面。特定专题报告不固定形式、灵活多样,有些是对某个特殊领域(比如问题解决、金融素养等)的整体测验情况描述,有些是关于某个特定研究主题(比如ICT与学习表现的关系研究)的结果呈现[8]。此外,PISA的测试数据会完全公开,研究者可以依据自己研究需要,免费从PISA官方网站获取所需的数据。
  PISA基于技术的测评发展
  从PISA已经开展的五次测验来看,PISA的评价框架、测评内容、测评形式总体上保持相对稳定。但是近年来,随着信息技术在教育测评领域中的应用,深刻变革了教育测评的理念、技术、方法,以核心素养研究为代表的教育目标反思思潮促进了教育测评领域对核心素养这类高阶能力的测量研究。在此变革潮流中,PISA的发展与变化主要呈现以下两方面特征。
  1. PISA从纸笔测验向基于技术的测验转变
  PISA2009在阅读素养的测评中首次尝试利用计算机技术,被称为数字化阅读测评(Electronic Reading Assessment),主要基于计算机技术将阅读内容数字化,提供交互式的、动态性的阅读内容[9]。2012年,PISA基于计算机技术测量问题解决、数学素养、科学素养以及数字化中的阅读,拓展了基于计算机的测量内容[10]。2015年,PISA首次将所有的测试转变为基于计算机的测验形式[11],对于传统的阅读素养、数学素养、科学素养等,提供纸笔测验和基于计算机的测验两种形式供参与国自行选择,特别是,因为全面采用基于计算机的测验形式,PISA2015在试测阶段研究了基于计算机的测验和纸笔测验的等价性[12],为测验项目整体开展打下了基础。
  总体来看,PISA将传统的纸笔测验转变为基于技术的测验是PISA测验形式发展变化的必然趋势,这种转变有其特定的原因:首先,与纸笔测验相比,利用信息技术能构建交互性的、动态性的测试环境,丰富了测试内容的呈现方式,能提供PISA关于素养测验所需的真实情境。其次,基于技术的测验环境能完整捕获学生解决问题的行为与操作过程,基于完整的过程数据能分析学生的问题解决过程,对深入分析学生思维过程、思维方式提供了更加直观的证据,能满足PISA关于测试学生运用所学知识、技能解决真实情境问题的需求。再次,参与PISA测试的学生数量众多,语言文化差异显著,传统纸笔测验的阅卷、评分工作成本较高、管理复杂,基于技术的测验可以较容易地解决该问题。
  2. 基于技术的高阶能力测评
  PISA基于技术测评高阶能力是其发展变化的另一重要特征。这种发展趋势与当前世界范围内关于核心素养研究的热潮紧密关联。核心素养是指未来社会公民所需要的关键技能和必备品格,是一类包含知识、技能、态度、价值的高阶能力。在这场教育目标反思思潮中,教育测量与评价领域不可回避的问题是——如何测量这类结构复杂、高度抽象的高阶能力。PISA2015采用“人机交互”的方式测量了学生的合作问题解决能力,为核心素养这类高阶技能的测量提供了新的测评策略。PISA的具体做法包括:定义能力框架、设计包含嵌入式试题的测验任务、获取学生完成任务过程中在项目上的反应、依据测量模型推断学生的能力。以下结合PISA2015释放的样题解释其测评的原理。
  (1)合作问题解决能力测评框架。PISA2015合作问题解决能力包含“合作”和“问题解决”两个维度,其中合作维度是合作问题解决能力的主线,提出了三种核心的合作问题解决能力,包括“建立与维持共享的理解”“采取合适的行动解决问题”和“建立与维持团队组织”。问题解决维度主要包括:探究与理解、表征与形成、计划与执行、监控与反馈。三种核心的合作问题解决能力和四个个体问题解决过程交叉形成了包含12类技能的矩阵(见表1),矩阵中的每个单元格代表一类技能[13]。
  (2)测验过程。PISA2015“人机交互”测验模式是指人与代理(测试任务中设计的虚拟搭档)进行对话合作解决问题的过程,图1为PISA2015释放样题的某个界面。界面左边是学生与代理之间的对话区域,在该区域上边是合作的成员之间的对话历史记录,下边是根据当前对话进程提供的一些选项,被测学生可以选择其中某个选项作出对合作搭档的反应,合作成员会根据学生的选项自动作出反应;界面的右边是任务区域,在该区域学生为完成任务可以进行各项操作,任务的进程与会话的进程同步。
  (3)测量原理。“人机交互”测验模式主要采用会话代理技术,合作成员之间的对话流程与路径事先需要精心设计,对话流程是一个有固定分支路径和多个节点的交互过程,如图2所示。每个对话节点相当于一个试题(Item),对应于操作性定义框架中的某种技能。对参与测试学生的合作问题解决能力的测量体现于学生在每个节点上所作出的不同反应,也就是选择的不同选项,类似于传统测验对某个试题的作答,作为推论合作问题解决能力的直接证据。在获取学生对测验项目的反应模式之后,采用IRT(Item Response Theory,项目反应理论)模型估计学生合作问题解决能力的得分。
其他文献
自2015年始,受创客教育课程建设的带动,深圳基础教育界逐步形成了新一轮校本课程建设的浪潮,这一轮课程建设的基本特点是“重视课程理念引领,强调一线教师参与研发,市、区主管部门全面推动,鼓励各校构建特色课程体系。”在这个浪潮中,作为深圳市小学科创类课程建设的窗口学校,龙岗区龙城小学也在原有科创特色的基础上构建起全新的校本课程系统。本系统以“STAR”为主题,将科学(Science)、技术(Techn
人大附中信息化建设发展概况  中国人民大学附属中学(以下简称人大附中),是一所享誉中外的著名中学,学校先后被授予“北京市首批重点中学”、“北京市首批高中示范校”、“全国劳技教育先进校”、“全国现代技术教育示范校”、“国家级体育传统校”、“全国教育系统先进集体”等荣誉称号。  人大附中的办学目标是“国内领先,国际一流,创世界名校”;办学理念是“尊重个性,挖掘潜力,一切为了学生的发展,一切为了祖国的腾
本课教学内容选自人教版语文教材五年级下册第八单元第25课《自己的花是让别人看的》。这篇文章在讲述德国风景民俗的同时,用精练概括的语言点明了通俗易懂但又意味深长的哲理,读起来让人既开眼界,又回味无穷,颇有教育意义。教学本文时,我们依据“以语言运用为中心”的“跨越式”教学改革理念,基于Pad平台,采用了朗读、默读、浏览与重点感悟相结合的教学策略。学生通过默读、浏览抓住课文主要内容,通过研读重点词句,积
创新已经成为时代发展的趋势和要求。国家需要创新,呼唤创新型人才,这样的需求为深化教育领域综合改革提出了新的挑战。  什么是创新型人才?创新型人才的核心要素是什么?培养创新型人才应该遵循怎样的途径?通过教学实践和深入研究,北京师范大学教育学部崔光佐教授得出了这样的结论:“创新是知识、思维能力、素质和人格的综合体现,创新型人才本质上是一种包含多种因素的创新本性,遵循着创新本性行事才会得创新之道。”  
【本刊讯】2018年10月12日至14日,2018上海创客嘉年华成功举办。本次创客嘉年华通过展出的多项人工智能落地项目,将科技革命和产业变革积蓄的巨大能量呈现于观者眼前,打造了一片全民可参与的、近距离可触摸的、最新最潮技术的科技高地,吸引了来自世界各地数以万计的创客共同参与。  活动中,有以表演赛 体验的形式落地的“空中F1”—X-fly,也有来自世界各国的越野拉力、机甲格斗、拳击、废柴机器人带来
2012年,石家庄市裕东小学成功地创建了第一个云端实践班,这一年李丽英校长的美国之行为学校的发展注入了新的活力。改变传统教育模式成为学校教育方式改革的重中之重。改革之初,学校缺乏技术经验,一切都处于摸索的状态,为更好更快地实现云端课堂教学,与河北师范大学等高校合作研究的同时,还实地考察公司,了解技术、环境、设备、平台等硬件设施,为更好地开展云端课堂提供技术上的保障。  为启动云端课堂,学校在人力、
随着信息技术日新月异的发展,多媒体辅助教学已广泛深入课堂, 以其批量处理信息、提供直观形象、构建知识链、优化教学过程的功能,给小学数学课堂教学带来了无限生机与活力。但是,目前基层部分一线教师过于“独化”多媒体技术的自身特点,相对“淡化”先进技术与小学数学教材之间的联系,片面“强化”多媒体技术在“辅教”中的作用,而“弱化”了在课堂上重点“辅学”的主体地位,导致了教育技术与课堂教学“融化”整合的“僵化
【摘 要】随着“技术活动成为人类活动的基本形式”,信息技术应用能力成为教师专业知识结构的重要部分。信息技术不仅有物质层面的工具形态,还饱含精神层面的思想与文化,教师是信息技术工具的操作者,是信息技术文化的体认者,是信息技术的构建者。教师在技术使用中提升教学效能,“成全”了技术,同时也改变了自身。通过应用技术工具、体认信息技术文化、确立技术构建者身份的路径,发展教师的信息技术应用能力,可以释放变革教
随着移动技术、新教学模式和无处不在的互联网之间的不断整合,学生在学校里的角色正逐步发生着变化:从被动的教学内容和知识的消费者转变成内容和知识的创建者。  与此同时,教师的角色也将会被重塑:从课堂上知识的灌输者变成教室里的教学研究与开发者、整合者、教学活动的组织引导者和参与者。学习将更多地以碎片化的方式随时随地发生,而非一定要发生在学校课堂上。因此,我们需要建立一种机制,用来激励学生获得学习的主动权
教育信息化发展方向——“十三五”期间,努力做好教育信息化基础支撑能力、教育信息化服务教学与管理的能力、教育信息化促进教育公平与提高教育质量的能力、数字教育资源开发与服务供给能力的“四个提升”。加快信息技术推动教育创新步伐,著力实现从服务教育自身到服务国家经济社会发展、从服务课堂学习到支撑网络化的泛在学习、从服务教育教学到服务育人全过程、从服务一般性教育管理到全面提升教育治理能力的“四个拓展”。 一