“人机对话”的过去、现在和未来

来源 :英语学习·教师版 | 被引量 : 0次 | 上传用户:waiwai123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  自1985年启动高考英语复试起,至现在的计算机辅助高考英语口语考试,广东省高考英语口语考试经历了三十多年的发展历史,对中学英语教学的改革发展起到了积极的推动作用。研究发现,计算机辅助高考英语口语考试测试了考试的语音语调、信息交流和口头表达的能力,符合考试设计的要求,具有相当高的构念效度。本刊围绕高考英语考试到底需不需要考口语,怎么考,英语口语能否用计算机来考,计算机是否能够进行评分等问题,采访了广东外语外贸大学博士生导师曾用强教授。
  广东省英语口语考试发展历史
  《英语学习》:曾教授,广东省的高考英语口语考试一直走在全国的前列,首先请您介绍一下广东省口语考试的发展历史吧!
  曾用强教授:好的。广东省是全国最早在高考中开展英语口语考试的省份之一。广东省高考英语自1985年开始加设口语考试,作为复试的一部分,1989年对笔试部分进行了微调,1996年继而对口试进行了重大的题型改革,引进了交际法测试,使用角色扮演取代原来的朗读题型。这种“信息交流”口语考试形式,要求考生通过扮演特定角色,完成信息获取和信息传递等重要的交际活动。同时,两名考官也分别扮演特定的角色,向考生提供信息(甲考官)和了解信息(乙考官)。两位考官根据考生提供信息的量和质进行评分。
  1997年广东省率先在高考英语中增加听力测试,但成绩不计入总分。1999年2月,教育部颁发了《关于进一步深化普通高等学校招生考试制度改革的意见》,启动了以“3+X”高考科目设置改革为主要内容的新一轮改革。2000年广东省实施了“3+X”,即语、数、外为必考科目,除此之外考生从物理、化学、生物、政治、地理或历史中选考其中任何一门,作为“X”科,采用标准分计分。2001年广东省将“英语复试”列为“X”科,并更名为“英语(2)”,听力及笔试部分的时间由60分钟调整到90分钟,内容包括笔试、听力和口语。把英语(2)作为独立考试科目意味着,英语成绩优异的考生可以选择英语(2)作为“X”科,而不需要选考其他考试科目。这是因为广东省强化英语的地位,提倡外向型经济和国际化交流。
  当英语的复试被提升为一门独立的高考的考试科目时,必然引起整个社会的关注。当时的面对面考试是通过人与人之间的交流,即“人人对话”来考口语的。随着考试使用时间越来越长,这种面对面的“信息交流”口语考试暴露的问题越来越多。其中最突出的问题是考试的公平性问题。
  因此,2004年广东省推行了计算机辅助英语口语考试,在口语考试的时间、题型、分值及考试模式上進行了变革。这是国内英语测试界的一个重大举措。2004年广东省英语(2)口语考试的时间由原来的6分钟延长到30分钟,题型包括模仿朗读、角色扮演和口头作文3部分,分值30分,占英语(2)总分值的1/4。
  2011年广东省高考英语又进行了一次较大的改革:取消高考英语中的听力考试,将其融入计算机辅助英语口语考试,实施计算机辅助英语听说考试方案,并为全体考生必考内容,成绩计入高考总分,满分15分(占总分的10%)。计算机辅助“英语听说”考试最终计入总分的分值=卷面成绩(满分60分)×0.25,四舍五入取整数入分。
  从2014年起,计算机辅助英语口语考试采用人工和计算机相结合的评卷方式。2016年广东英语高考使用全国新课标卷,但仍保留原广东卷的听说考试部分,考查形式、题型和分值、评卷方式不变。
  图1概括了广东省高考英语口语考试的重要发展阶段。


  高考英语需不需要考口语?
  《英语学习》:谢谢曾教授的介绍。目前全国仍有一些省市的高考英语不考听力,也不考口语。那么,高考英语考试到底需不需要考口语呢?
  曾用强教授:语言学习的主要目的就是培养语言的交际能力,而写作和口语是产出性技能。没有产出就没有交际。所以无论从教学的角度,还是从考试的反拨作用来考虑,考口语都是必要的,尤其教研系统一直呼吁高考英语必须考查口语。
  那么,为什么会存在英语考不考口语这样一个话题呢?从考务角度看,口语考试最难组织,很容易受到客观条件的制约。比如,听力的设备问题,天气影响等等。很多省份之所以不考听力,不考口语,是为了规避这些风险。比如某个地区突然打雷,考生说影响了考试,要求重考。这么大规模的考试能说重考就重考吗?一个地区重考可能对别的地区产生新的不公平。
  高考英语考不考听力和口语,其实不是从语言教学的角度来考虑,更多的是为了规避考试组织方面的风险。
  广东省一直坚持把口语列入高考英语的必考内容。但是也面临考务组织的挑战。广东省考试院能顶住考务的压力,一直坚持这么多年,确实值得点赞!“人人对话”考试遇到的挑战主要来自考生的备考技巧、命题的局限性以及考试的公平性等。
  高考是高风险考试,其考试关注度和考生重视程度是其他考试无法比拟的。考生会根据题型做对应的训练,采用多种考试策略来对付考试。实施了近十年的“人人对话”考试已经很难考出原先所期望的口语能力了。我们在调查中发现,大多数考生平时没有投入时间训练口语,只是在高考前一周进行简单训练,来熟悉题型和把握考试策略。
  从命题角度看,“人人对话”命题有一定的难度,主要原因有二:一是命题资源有限,口语考试的情景必须是中学生所熟悉的,而且年度之间最好有一定的差异。但是中学生所熟悉的情景有限,因此,每年考试的情景常常是重复的,其公平性受到质疑。二是试题难度的平衡,广东省每年需要组织4~6场口语考试,保证4~6套试题之间的难度平衡并不容易。每年都有考生投诉试题难度不平衡,造成对部分考生不公平。
  从考试评分的信度看,“人人对话”的考试信度一直受到质疑。考试中心和负责评卷的高校已经投入大量人力、物力和财力,但是由于受口语考试的主观性制约,而且“人人对话”考试要求考官即时判分,采用的是单评(为了追求情景的真实性以及受考试成本的制约),所以这种形式的口语考试面临最大的挑战就是考试的信度低和公平性问题。   英语口语考试应该怎么考?
  《英语学习》:曾教授,大家普遍关注的另一个问题是英语口语考试应该怎么考的问题,口语包含听和说,听和说应该是分离考还是合考呢?
  曾用强教授:听和说应该是分离考还是合考其实是体现了两种不同的设计理念,也就是如何定义口语的构念问题。
  分离考认为听力和口语表达是语言学习中两个最基本的技能,如果更强调考查考生掌握语言技能的程度,分离考就更能满足考试的目的要求。合考强调语言学习的应用能力,听与说都是工具,是为了完成交际任务。所以合考是从语言交际任务的角度去设计。
  我个人比较赞同考试必须从语言交际任务角度去设计。语言的听说读写只是完成语言交际任务所必需的工具,不是语言学习的目标。
  但是听说合考在考试设计上会面临一个问题:听与说之间是相互依存的关系。比如说“故事复述”题型,要求先听再说,假如学生听不懂就说不出来,但并不一定是因为口语表达能力不好,而是因为听不懂。我们在设计“故事复述”时做了很多试验来了解听力难度要控制在什么层面,确保听的能力不能影响到说的发挥。所以说听说合考的风险就在于整个度的把握,要能够考出学生真正的能力,对题型设计和命题要求很高。
  最理想的考试设计应该是既有听说分开的部分,也有综合考试,这样可以兼顾考查语言技能和语言运用能力。
  “人机对话”口语考试与评分
  《英语学习》:英语口语是应该用“人人对话”模式还是“人机对话”模式考试呢?也就是说英语口语能用计算机考吗?
  曾用强教授:我首先需要明确的是,讨论口语能不能用计算机考这个问题,一定要在考试的前提下进行。基于目前人工智能的水平,计算机肯定不可能与人进行自由的对话,但是从考试的角度来说,即在“人人对话”中,考官也是不允许与考生自由对话的,因为考试最重要的是公平性,即所有的考生都必须在相同的条件下完成考试任务。基于这点考虑,用计算机考口语更具有信度。所谓的信度,指的是公平性,这是计算机考试最大的优点。“人人对话”是很难实现的,因为“人人对话”很容易出现随机误差。同样的一个主考官,面对不同考生的时候,可能标准会不一样。所谓随机误差是不可预见的,也很难控制,这是对考试信度最大的威胁。
  《英语学习》:曾教授,通过您的介绍我们明白了“人机对话”的信度为什么能比“人人对话”大幅提升。但评价一个考试最重要的一个特征是效度问题,即这个考试是否考到了它想要考的東西。那么“人机对话”是否也有很高的效度呢?
  曾用强教授:这个问题非常好。评价一个考试最重要的两个标准是信度和效度。效度比信度更为重要,因为如果一个考试的结果达不到预期的目标,那么这个考试就没有任何意义了。通过“人机对话”,口语考试的信度相应提高了,但效度会受到影响吗?能不能考查到考生的口语交际能力?在多大程度上考查到了考生的这种能力?
  我们通过定性分析和定量分析相结合的方式来探讨“人机对话”这种口语考试形式是否能考查到学生口语交际能力。定性分析中我们使用了专家调查问卷和内容分析方法。定量分析中我们采用了相关分析和因子分析的方法。经过分析,我们发现“人机对话”的口语考试形式虽然没有真正的人与人之间的交流,但并没有因为提高了信度而降低了效度。我们的结论是“人机对话”有相当高的效度。
  相对于口语考试,计算机化考试产生最明显的变化特性可以归纳为以下两个方面:
  (1)提高考试的效度:借助多媒体或者其他科学技术,计算机化口语考试可以开发一些创新的题型,提高试题的真实性,使考试任务更接近真实的语言使用任务,从而提高考试的效度。
  (2)提高考试的信度:面对面口语考试由于采用人工现场评分,误差较大。计算机化口语考试通过存储考试的考试数据,考后专门组织专家评分,在很大程度上保证了评分标准掌握的一致性,从而保证考试的信度。
  《英语学习》:请您详细谈谈“人机对话”在大规模英语口语考试中的优势有哪些?
  曾用强教授:“人人对话”在大规模高考统一招生考试中最大的弊端就是考试成本高,效率相对低,考试的可操作性低。除此之外,还有以下不足之处:首先,口试成绩由主考官当场打分评定,没有实况记录,没有原材料可以复核,因此对口试评分的公正性和科学性无法进行核查,对评分误差的控制小。其次,考生受口语能力以外的影响多,如主考官语言水平的差异、考生情绪波动等因素的影响。再次,考试时间不能精确地得到控制。如果考生不能及时做出应答,说说停停,就会人为地拖延预定的口试时间,致使考试不能在规定的时间内结束。相反,“人机对话”在这些方面就有明显的优势。“人机对话”口语考试的方式能大大提高整个考试的工作效率,能对大批量的考生在同一时间内进行测试,试题的安全保密也可以得到有效控制。此外,由于“人机对话”可以完全记录并还原考场的现场情景,从而可以实现“一题多评”,使评分更加公正、合理。同时也为主考部门检查口试评分标准的执行情况提供原始材料。在人机交换的环境里,为考生输入的是统一的标准的语音、纯正的语调、适中的语速,考生相对处于较对放松的状态,有利于水平的发挥。而且,由于计算机的开启和关闭程序是设置好的,考生必须在规定的时间内完成相关任务,不能提前开始或推迟结束,有利于实现口试的计划性和公平性。
  《英语学习》:“人机对话”考试设计的基本思路是什么?题型有哪些?
  曾用强教授:2004年广东省口语考试最初的三种题型,一是模仿朗读,二是角色扮演,三是口头作文。其设计原则是:
  (1)作为高校招生考试,高考必须满足高校选拔人才的需要,同时,它必须对中学的英语口语教学改革起积极的推动作用,也就是,高考英语口语考试必须具备良好的构念效度和反拨作用。
  (2)作为大规模风险考试,高考必须具有较高的信度。如何控制口语考试评分误差是设计计算机化口语考试的一个重要问题之一。   (3)题型设计要满足真实性的要求,也就是口语考试任务必须尽可能接近中学生可能使用英语的真实情景。计算机化考试更是要通过多媒体的应用,突出考试任务情景真实性。
  我们当时花了很多时间到各个中学去调研。通过调研,我们认为,中学生口语能力至少包括三个重要的组成部分,第一是语音、语调,这是口语表达最基本的元素;第二是口语交流的基本过程,包括获取信息和传递信息;第三是口语表达,即用英语表达思想。所以我们基于这样的构念定义,就相应地设计了模仿朗读、角色扮演和口头作文三个题型。
  通过这么多年的应用,英语听说考试改革对中学英语教学起到了积极的反拨作用,尤其是模仿朗读题型。这几年的考试数据表明,广东考生由于在平时的学习过程开始有意识地模仿地道的语音语调,他们的语音语调明显得到提升,地方方言的影响在逐渐减少。考试带来的最大的反拨作用就是培养了考生的意识,考生开始意识到语音语调的重要性,而且练好语音语调的最好途径就是模仿本族人!
  《英语学习》:2011年之后的题型变化是把口头作文改成了故事复述。能请您谈谈故事复述这个题型吗?
  曾用强教授:故事复述部分先为考生提供故事的梗概和五个关键词(中英对照),让考生先进行故事预测,然后给考生播放一则结构完整、线索清楚、字数在200词左右、录音时间在1.5~2分钟的录音材料,然后要求考生尽可能多地对材料进行复述。有研究表明,故事复述在内容效度、共识效度和构念效度方面都具有较高的效度,出现在大规模、高风险的高考中是可取的。
  从用语言表达自己思想的构念角度来看,故事复述要求考生听完后用自己的语言重新组织,这就涉及评分的信度问题。为了保证大规模考试的信效度平衡,出于折中的考虑,我们在题型设计时要求信息点必须来自原文,并只分配小部分分数考查学生对意义的组织和连贯性等,评分标准的导向还是公平性。如果评分信度能控制好,给学生自由发挥的空间会很大,大规模考试都是在追求信效度的最佳平衡。
  故事復述不仅在试题开发和施测阶段具有较好的可操作性,还能给学习者的学习带来良好的反拨效应。故事复述本质上是一种要求考生对原文进行重构的活动,作为提高母语学习者的听力和阅读能力以及提高二语学习者的语言能力的手段,它非常成功。它是个非常积极的过程,重新产出可以让学习者将注意力集中在原文的局部和整体信息上,以至于可以协助学习者更好地理解和掌握故事情节和语言结构。这与课标对高中英语学习的总体目标是一致的。
  《英语学习》:听说广东“人机对话”口语考试有的题目采用了自动评分模式,请问效果如何?
  曾用强教授:大规模考试引入口语考试,面临的最大挑战之一就是评卷工作。人工评分投入大,而且信度低。人的评分容易产生随机性误差,而这正是对考试公平性最大的威胁,所以考试评分一定要控制随机性误差。机器的评分可能出现系统性误差,绝对不会出现随机性误差。探索计算机自动化评分已经是迫在眉睫。2014年《广东省高考英语听说考试实施人工智能评分的可行性研究》被立项省级研究课题,该课题随机对珠江三角洲、粤东、粤西、粤北四个地区抽样各5000名考生,共2万名考生,组成广东省考生总体。通过比较分析机评分、人评分和专家分之间的一致性和相关性,我们发现:机评分与人评分的相关系数以及一致率都非常高,而且机评分比人评分更接近于专家分,因此我们认为,采用计算机人工智能评卷可以适用于广东省高考英语的听说考试。 2015年起,广东省开始采用人工阅卷和计算机智能评分相结合的评卷方式。
  “人机对话”口语考试前景预测
  《英语学习》:您能对“人机对话”在全国高考中普遍使用的前景做一下预测吗?
  曾用强教授:对于未来“人机对话”在全国高考中的发展,我认为它一定是一种趋势。现代生活的任何一方面都离不开信息化,包括教育。广东省推出计算机口语考试不仅推动了考试改革,而且推动了教育信息化的发展。这几年,各个中学都在加大投入,建设机房,尤为重要的是,计算机的应用越来越广泛,不仅可以用来学习计算机,而且还可以用于考试和学习。
  推动计算机考试改革,更新观念和意识是关键。正如之前所讨论的,在考试的特定环境下,计算机在考试题型设计上具有纸笔考试所无法比拟的优势,同样在评分上可以表现得比人更出色!
  另外,推动计算机考试所面临的最现实的问题是经费问题。机器取代人,一方面节省费用,另一方面也提高了费用,总体来说是增加。投入是相当大的,比如,为了安全问题计算机考试一般不使用互联网,而是一个考场配备两台服务器,而且考试后服务器的原始数据必须封存,至考试成绩公布后在规定的期限内没有接到投诉,才能开封。如果有投诉,还要打开原来的服务器查数据。
  广东省机助英语听说考试的未来改革方向应该包括两个方面:题型的改进和分值的提高。
其他文献
如果我们检索与外语教育文化教学相关的文献,就会发现出现频率很高的词语为:文化背景、文化导入,文化渗透、文化意识等等。这一结果反映了我们目前对于文化在外语教学中所扮演角色的认识:文化知识是一种“背景”知识,主要起“导入”语言知识的作用,在语言教学中见缝插针“渗透”即可,文化教学的目的只不过为了让学生形成一种“文化意识”。在这种指导思想下,文化教学只是语言教学的调味品:语言是主角,是红花,是第一性的,
期刊
摘 要:思维品质是英语核心素养的重要内容之一,阅读课教学是培养学生思维品质的重要抓手。本教学设计通过教师、学生设计有效阅读问题,引导学生解读和总结文本内容,分析现实生活中的问题,运用所学经验提出解决问题的方案,进一步发展思维品质。  关键词:思维品质;有效问题  引言  外语素养是世界各国和国际组织制定的核心素养的组成部分。中国学生核心素养指标体系也包括外语素养,并将外语素养定义为“能够根据自己的
期刊
摘 要:联合国教科文组织在《学习:财富蕴藏其中》提出的“学会认知”包含了对学习能力的要求。《终身学习核心素养:欧洲参考架构》提出的终生学习的八项关键能力中也有一项是“学会学习”。美国“21 世纪学习体系”也提出“学习与创新素养”。林崇德教授团队研制的《中国学生发展核心素养》中也把“学会学习”列为其中一项素养。由此可见,学习能力这个传统的命题在新时代中仍然受到重视,但其内涵随着时代的发展发生了变化。
期刊
摘 要:繪本阅读教学是培养小学生思维品质的有效路径。作为小学英语教师,不仅要从理解语言本身去设计教学,还要从思维角度考虑活动的设计。本文以大猫英语分级阅读Scary Hair为例,阐述了如何在绘本阅读教学中提升学生的思维品质。  关键词:绘本阅读;思维品质;问题链;思维帽;Reading Response  引言  小学生喜欢听故事、读故事、讲故事、演故事。而绘本,这种文字与图画相辅相成的图画故事
期刊
摘 要:伴随着数字信息时代浪潮的迅速推进,先进的科技手段与丰富的信息资源已然渗透到教育现代化建设之中,将信息资源有机、有效地同英语教学相结合成了当今“互联网+”教育发展的必经之路。在传承以往英语教学宝贵经验的基础之上,如何有效整合利用信息资源辅助语言的学习,进而促进高效的教学成为了一个备受关注的问题。因此,如何利用丰富多彩的线上资源,深化拓展线下英语课堂教学,将是该教学设计的重点。  关键词:线上
期刊
南花渐已浓,北树新芽生,正是踏青赏花好时光。本期发表了一批接地气、有实践、有思想的教育耕耘成果,请大家共同欣赏外语教育盎然争鸣的春意。  北京、上海等地出台的高考方案都加大了外语听说能力的考察,针对现实中存在的诸多不解和困惑,例如高考英语到底需不需要考口语,怎么考,英语口语能否用计算机考,计算机是否能够进行评分,在一线教学中如何培养学生的听说能力以及对听说考试进行备考等等,我們集中推出了一组文章进
期刊
2016年11月14—18日,浙江省教育厅教研室葛炳芳老师组织了“2016年浙江省高中英语阅读教研成果推广培训”。  葛炳芳老师带领他的团队长期致力于中学英语阅读教学的研究。自2010年起,他们以课题研究为载体进行了三轮为期六年的阅读教学改进行动研究,形成了“英语阅读教学综合视野”的理论。课题组的研究成果“基于综合视野的英语阅读教学改进行动”被评为“2016年浙江省基础教育教学成果奖”一等奖,并出
期刊
摘 要:本文介绍了“2016年浙江省高中英语阅读教研成果推广培训”的背景、培训思路和过程。本次培训以“‘综合视野’下的高中英语阅读教研:体验教学改进的过程”为主题,基于培训组织者六年多的高中英语阅读教学研究成果,以三轮研究的子课题组长的讲座和“历时同课异构”的阅读教学改进为核心内容。本次培训达成以下三点共识:(1)需要进一步强调和落实“文本解读是阅读教学的逻辑起点”这一理念。(2)“英语阅读教学的
期刊
摘 要:本文通过分析初中英语阅读教学中文化背景教学的缺失现状,找出其存在的原因。并借助两个案例的剖析,提出了运用微视频优化英语阅读文化背景知识的教学设计,总结了微视频在英语阅读教学中的特点优势及设计步骤。  关键词:微视频;文化背景知识;教学设计;实践  引言  任何一门语言都有其丰富的文化内涵,英语也不例外。在《义务教育英语课程标准(2011年版)》的“分级目标”中,“文化意识”是综合语言运用能
期刊
摘 要:文本解读在英语教学中的作用日趋显著,直接影响了教学目标及活动的设计。本文以人教版《英语》五年级上册Unit 6 Chores Lesson 2为例,基于文本分析,通过教学前测、过程实施及课后反思对本节课进行了剖析,阐述了文本分析在会话教学中的重要作用。  关键词:小学英语;会话教学;文本分析  《义务教育英语课程标准(2011)》强调:深入开展教材分析,把握教材的设计理念,了解教材所提供的
期刊