语言测试的分数合成方法研究

来源 :大观 | 被引量 : 0次 | 上传用户：misskiller

【摘要】

：

【作者】

：

袁淑敏

【出处】

：

大观

【发表日期】

：

2016年9期

【关键词】

：

语言测试合成方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：语言测试是我国现行考试体系中比重最大、普及范围最广、影响范围最广的考试。语言测试在教育、人事选拔等领域都发挥着无可替代的作用。社会对考试结果的认可越高，对考试的专业性要求也就越高。语言考试实际上已经成为了一项高风险考试。本文对考试分数的合成方法做了总结，以其为相关研究提供参考。
　　关键词：语言测试；合成；方法
　　一、引言
　　中国是最早使用考试的国家，从古代的科举发展到现代的考试，考试在教育、人事选拔、职业能力鉴定等领域都发挥着无可替代的作用。受国外托福、雅思等语言测试的影响，国内于70年代末开始引进或开发第二语言测试。第二语言测试是针对第二语言习得提出的，如大学英语考试（CET）、英语水平考试（EPT）、公共英语水平考试（PETS）等。
　　语言测试的目的是评价学习者的学业成就或语言水平，评估教学效果。除此之外，CET、托福、雅思、PETS等语言测试的结果已经成为人才选拔时的重要依据；英语作为国内学校教授的最主要的第二语言，在高考选拔中的重要性越来越高。社会对考试结果的认可越高，对考试的专业性要求也就越高。语言考试实际上已经成为了一项高风险考试。
　　语言测试专业性不仅表现在题目的命制、考试组织与管理、考试结论的应用等方面，更体现在开始分数的导出、报告与解释上。但目前国内自主组织的语言测试依然采取基于经典测量理论的分数合成方法，使得考试之间的可比性、分数解释的科学性、结果应用的外部效度都受到了极大的影响。
　　本文拟从经典测量理论和现代测量理论的角度，对国内几种常见分数合成方式的原理与特点做比较分析，并提出语言测试分数合成及报告的解决方案。
　　二、分数合成方法的分类
　　语言测试属于典型的能力水平测试，是教育与心理测量学领域的重要研究主题。对能力测试数据的分析经过了两个重要的发展阶段。以1968年Lord发表《心理测验分数的统计理论》为界，教育与心理测量学经历了经典测量理论和现代测量理论两个发展阶段。19世纪末真分数理论提出到20世纪60年代末的70年间是经典测量理论占主导的发展阶段。经典测量理论为教育与心理测评的发展做出了卓越的贡献，但也存在很多理论本身无法避免的缺陷。最典型的缺陷是：“统计指标与实际意义相悖”，以难度的计算为例，客观题难度即正确率。例如选择题正答率为0.8则难度为0.8，代表题目非常简单；若正答率为0.1则难度为0.1，代表题目非常难。难度的理论区间为[0，1]，数值越大难度越小、数值越小反而难度越大。经典测量理论的缺陷还包括：题目属性的分析依赖于被试样本、分数不等距、基于加权累积方式合成分数等。为解决这一问题，以项目反应理论、概化理论为代表的现代测量理论逐渐发展起来。项目反应理论是现代测量理论的核心理论。与经典测量理论相比，项目反应理论深入测验的微观领域，通过将学生与项目（题目）关联起来并进行参数化、模型化，解决了经典测量理论的诸多缺陷。
　　因此，语言测试的分数合成与解释也分为经典测量理论和项目反应理论两种类型。基于经典测量理论的分数合成方法包括直接相加法、加权累积法、多重分段法；基于项目反应理论的分数合成方法主要包括只考虑难度、区分度等题目特征的项目反应模型合成法；综合考虑题目特征、评卷教师特征、考生特征的多面Rasch模型分析法。
　　三、基于经典测量理论的分数合成
　　（一）直接相加法
　　直接相加法就是将测验中的各个维度直接累加得到一个分数。一个完整的语言测试，一般会同时设计语言学习的多个方面，如英语考试一般会包括听力、口语、阅读、写作四个维度。以直接相加法计算的英语考试成绩就是四个维度得分的简单加总。
　　各维度之间的得分直接相加的前提是各种分数之间是同质的，且各维度或分测验的得分在总分中所占的权重相同。在满足上述前提的情况下，直接相加法具有操作简便、容易理解、处理快速等优点。
　　英语的听力测试、口语测试、阅读测试、写作测试分别对应听、说、读、写四种能力。学术界对二语能力的结构尚未形成统一的认识，主要的争议在于：听、说、读、写是四种独立的语言能力，还是统一在语言能力下的四个方面。只有后一种理论才满足四个测验是同质的，才允许将四个得分直接相加。另外，语言测试中，针对不同的能力设计了不同的题型，如听力、阅读等能力的测试以客观题为主，写作能力的测试以主观题为主。两类题目从考察的认知能力、题目难度、考察方式上都有明显区别，不考虑这些差别的情况下直接将得分相加显然不太合理。
　　（二）加权累积法
　　为解决直接相加法不考虑题目难度、认知要求、考察方式等差异的缺陷，加权累积法根据题目属性之间的差异，给予不同的权重，然后进行加权求和计算总分。合成分数过程中的权重是命题者根据题目的不同属性赋予的。如高考英语中，考察阅读能力的客观题每答对一题计4分，考察听力能力的客观题每答对一题计1.5分，考察语言知识运用的客观题每答对一题计0.5分。加权累积法虽然增加了权重，但除了权重的设计需要一定的理论支持，分数的合成过程仍简单快捷，因此在教育考试中应用最为广泛。
　　加权的方式一定程度上解决了不同题目测量属性有别的问题。但权重的确定没有统一标准，均由命题者主观确定。这就有可能导致不同作答模式被试因加权方法不同，得到的分数不同。假设两名学生参加通一次英语考试，考试中听、说、读、写各一个题目。甲学生做对了听、说、读三个题目，乙学生做对了说、读、写三个题目。若四个题目的权重为1：1：1：2，则甲学生得3分、乙学生得4分；若四个题目的权重为1：1：1：1，则两名学生得分相同，均为3分。这表明，完全主观的权重设计有可能影响评价结果的效度。
　　（三）多重分段法
　　为解决加权累积法在权重设置上的缺陷，当认为语言测试中的各项分测验不具有互偿性时，就采取为每个测验指定一个计分标准。互偿性是指A测验上的高分不能弥补B测验上的低分。例如在语言测试中，一名学生听力能力上的高低不能影响其在写作测验上的表现。　　语言测试中的多重分段法是指语言能力的评价和预测可以有多个预测源，且这些预测源的预测方法、计分方式各不相同。如口语能力和阅读能力都是语言能力的一部分，但听力能力以一对一的口语交流形式来评价，阅读能力以纸笔测验的形式来评价。两种能力有本质的不同，两个测试得分不能相加。所以需要在每个分测验内独立评价。在使用这些得分评价及筛选学生时，应分别划线。如托福、雅思考试，在报告考生分数时将不同能力模块分开报告。
　　多重分段法解决了不同能力得分不能相加的問题，但也违背了分数合成的经济性原则。更丰富的分数报告虽然保证了科学性，但不报告总分的形式也给选拔工作增加了困难。
　　四、基于项目反应理论的分数合成
　　在经典测量理论框架下的分数合成方法，虽然考虑到了题型、考察内容、难度等题目属性，但在分数合成过程中主观因素对总分的影响很大。如何真正实现基于题目属性的客观测量是语言测试所面临的最大挑战。
　　项目反应理论的提出，解决了这一难题。以最简单的Rasch模型为例，认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示：
　　f（Pni1）=θn-δi
　　其中，Pni1表示考生n回答第i个题目得1分的概率。在0-1计分题目中，得1分表示考生答对该题目。函数表示被试答对该题的概率Pni1取决于考生能力θn及题目难度δi。Rasch利用自然常数进行转换，使用最大似然估计法经过多次迭代估计出考生能力。整个计算过程中未对任何题目进行加权，仅考虑考生作答情况。因此，分数合成过程更加客观、科学。
　　基于项目反应理论的分数合成结果还有以下几个优点：
　　1.针对不同被试精确估计测量误差。经典测量理论的分数合成过程对误差的控制很弱。项目反应理论将考生参数估计和题目参数估计统一在同一个框架下，对误差的控制可以精确到每一名考生和每一个题目。
　　2.分数合成仅依赖题目与考生特征。经典测量理论的任何题目参数的计算都受考生能力分布的影响。例如难度的计算，难度以正答率为指标。如果答题的学生能力普遍偏高，则计算出的题目难度就低，反之如果答题的学生能力普遍偏低，则计算出的题目难度就高。题目不变，但计算出的题目参数差异巨大，这显然是确定题目参数的算法不合理。基于项目反映理论的合成方法仅考虑难度与能力两个因素，且通过算法保证了在考生能力分布不同状况下题目难度稳定。
　　3.能力与难度具有统一量尺
　　基于经典测量理论的分数合成方法得到的总分与题目难度之间没有可比性。例如，经典测量理论无法估预测一名总分为80分的学生在一个难度为0.8的题目上的正答率。项目反应理论解决了这一问题，将学生能力与题目难度统一在同一个量尺下，单位统一为Logit。
　　但基于项目反应理论的分数合成在数据的收集、参数估计等方面要求都比较高，这从一定程度上限制了这一方法的推广。但随着计算机技术、测量学技术的普及，更加科学、合理的分数合成方法一定会快速普及起来。
　　五、总结
　　总体来说，采取哪种分数合成方法应当是在综合考虑人力、财力、测试目的等多个因素后决定的。在考虑上述因素的情况下，综合运用多种合成方法，从多个角度评价考生才能够保证分数报告的科学性、合理性。
　　【参考文献】
　　[1]袁方，朱军梅.多面Rasch模型：结构化面试分数合成的新方法[J]. 中国人力资源开发，2009（08）：53-55.
　　[2]阳辉，车宏生，卞冉.分数合成：测评中不可忽视的重要环节[J]. 中国人才，2008 （15）：49-51.
　　[3]王克盈.关于测验分数合成方法的探讨[J].陕西教育学院学报， 2000（01）：73-76.
　　[4]郭述平，金松尧.两种分数合成方法的比较[J].辽宁高等教育研究，1990（02）：133-135.
　　作者简介：袁淑敏（ 1980—），女，贵州贵阳人，贵阳学院，讲师，硕士，研究方向：应用语言学。

其他文献

眼视光行业从业人员资格认证的必要性调查报告

【摘要】目的调查不同人群对眼视光行业从业人员资格认证的必要性的看法。方法采用问卷调查的形式对不同职业、不同年龄、不同学历人群共300人进行问卷调查。结果目前眼视光从业人员资格认证还未完全规范。结论眼视光学在维护视觉健康方面具有非常重要的作用,视光从业人员应进行专业规范化培训及职业资格认证,持证上岗,依法从业势在必行。　　【关键词】眼视光从业人员资格认证必要性　　【中图分类号】C962【

期刊

眼视光从业人员资格认证必要性

临床分析整体护理对手外伤患者的护理满意度与心理影响分析

【摘要】目的：临床分析整体护理对手外伤患者的护理满意度与心理影响分析。方法：选择本院2017年7月至2018年7月收治的手外伤病例90例，按照随机分配方式，划分为研究纽（45例）和对照纽（45例），对照纽予以基本护理，研究组予以整体护理，比较分析两组病例的心理评分与护理满意度。结果：在护理前后，所有病例的心理评分都存在显著性降低，经过护理后，研究组心理评分34.22±6.04分，比对照组的47.4

期刊

整体护理护理满意度心理影响手外伤

路长日暮,人在何处:李清照词中的时间意识

“天人合一”思想是中华传统文化的内核,这种思想折射出古代人民对宇宙自然的依赖与敬畏.在观望着自然万物的万千变幻,并在这个过程通过时间意识完成对自身的观照,思索个人的

期刊

时间意识李清照生命意识

做好基层群众文化工作的几点思考

群众文化工作决定着社会文化的进程与发展,可以说,基层群众文化的工作质量决定着我国社会主义和谐社会的建设进程,因此,基层群众文化的建设与发展工作成为近些年来政府部门最

期刊

基层群众文化加强宣传丰富内容打造品牌

从功能目的论看公示语的翻译

摘要：公示语虽然无处不在，与我们的生活密切相关，但公示语的英译水平却参差不齐，存在着诸多弊病。正确且得当的英文公示语不仅能够帮助来华的外国友人更好地在中国旅游和生活，更是一个国际化都市的门面所在。结合功能目的论的翻译三原则，本文提出了译者应该依照翻译目的确认翻译策略以及合适的翻译方法，这样才能更好地发挥公示语的作用，达到预期的目的。　　关键词：公示语；功能目的论；翻译原则；翻译策略　　随着改革开放

期刊

公示语功能目的论翻译原则翻译策略

女性批评视野下的木兰形象

《木兰诗》是中学经典篇目之一,学界历来对于木兰形象的评价集中于“巾帼英雄”、“孝女”等方面,使得木兰这一形象变得标签化、刻板化.本文从女性主义批评的角度出发,分析诗

期刊

木兰形象反抗精神父权世俗观念女性独立

LUPUS NEPHRITIS COMPLICATED WITH MALIGNANT HYPERTENSION: FROM RENAL VASCULAR PATHOLOGY TO CLINICAL R

为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7

期刊

lupus nephritismalignant hypertensionrenal pathologyrenal vascular involvemen

传统文化在党校文学教学中的应用探究

传统文化是中华民族几千年来沉淀下来的财富,对中国历史、文学、社会发展等等领域有着非常广泛的影响,是中国屹立世界不倒的根本所在.党校是领导干部加强学习、锤炼党性的主