多面Rasch模型下机辅英语听说考试人机评分差异研究

被引量 : 0次 | 上传用户:wenzl1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广东高考英语听说考试自2011年实施以来,便受到了社会各界的广泛关注。作为主观性考试,其评分主要依靠评分员的主观印象,评分信度极易受到各种因素影响,评分员效应是保证评分质量首先要改进的问题,因此有效控制评分员的质量是保证主观性考试质量的一个重要手段。近两年来,为了改善这一大型高风险考试的评分信度,近来决策部门对广东高考英语听说考试实行自动化评分改革。因此自动化评分的合适性、可操作性和人工评分的对比均有待检验。近年来,国内外一部分研究者使用数学模型对评分员的评分结果进行分析,取得了初步的成绩。其中应用比较广泛的是多层面Rasch模型(Many-Facct Rasch Model)。该模型源自心理测量学领域的项目反应理论(Item Response Theory),是原始Rasch模型的拓展,引入了更多的影响测试结果的侧面(facets),能够对各层面测量值进行独立估计,检验层面间的偏性交互作用,对主观评分质量提供系统而详细的分析。本研究利用2013年广东高考英语听说考试材料,以广东省广州市某高中119名高三学生为样本,运用项目反应理论的多面Rasch模型和一致性分析方法,详细分析了三种类型的评分员--按照背景分为大学教师、中学教师和自动化评分员的评分差异,从四个侧面加以反映:评分一致性、宽严度、集中趋势、随机效应等。通过分析探讨了自动化评分和人评分在严厉度、一致性、集中趋势、区分度、随机效应等方面的差异,并对每类评分员的严厉度和信度进行了具体的估算和比较,分析了每类评分员在对特定考生评分的过程中产生偏差的具体原因,并提取出了异常分数。研究结果显示,英语计算机口语考试中人工评分员自身一致性较好,自动化评分员有待改进,但三类评分员的评分相邻一致性都达到了较高水平;大学老师评分员评分较为宽松,但三组宽严差异情况并不显著;人评分员和自动化评分员都无集中趋势;自动化评分员以及大学老师评分员在个别考生维度上具有随机效应。我们希望本次研究能为广东高考英语听说考试的评分自动化改革提供具体的统计上的依据,促进MFRM在实际评分监控中的应用。
其他文献
替米沙坦为非肽类血管紧张素Ⅱ(AT1型)受体拮抗剂,临床上用于高血压症的治疗.有关生物样品中替米沙坦的测定方法有自动柱切换高效液相色谱结合荧光检测法和C放射性标记等.本
<正>教师寄语是学校老师尤其是班主任对学生一学期的学习、生活等方面给予的结论性总结。好的教师寄语(以下简称"寄语")可使学生更好地了解"自我",并从中受到激励和感染,朝着
期刊
2011年湖北高考数学试题的一个亮点是把课本上的例题、练习、习题、复习参考题加工改造为高考题,理科试题有100分左右的题来源于教材.充分体现了引导中学数学教学关注课本、跳
对柴达木盆地梭梭的NHX基因进行扩增,并利用生物软件对NHX基因序列进行分析,对蛋白结构进行预测。结果表明:柴达木盆地梭梭NHX基因长度1 677bp,编码559个氨基酸。NHX蛋白预测
目前,我国代工企业正迈向微利时代,中国制造的优势随着劳动力成本的上升、物价上涨等已经逐渐失去,曾经为中国经济发展立下汗马功劳的中国代工企业正在遭遇“寒流”,低附加值
当前,中国学习者面临中国文化失语和中国文化身份焦虑的现实,建立小型专用语料库,将语料库技术和资源引入到中国文化教学与研究中可以切实从教学实践方面改善这一现状。本文
引言风水,又称堪舆、青乌、青囊、地理、相地等,是中国人生死安处的文明,如按《诗经&#183;大雅&#183;公刘》所记周人先祖公刘勘察豳地算,为时已有3500多年;按颇有相地意识的
目的:探讨产科产后出血行急症子宫切除术的相关因素。方法:采用回顾性分析方法,对30例产后出血行急症子宫切除术患者的一般资料、失血量、手术方式、分娩方式、术后并发症、
<正>政府办公室作为政府机关工作运转的枢纽,是领导进行决策的参谋助手,也是承上启下、协调左右、联系群众的桥梁,在政府工作运转、领导决策和各项部
期刊