论文部分内容阅读
随着测量理论和计算机技术的不断发展,计算机自适应语言测试系统(Computerizedadaptivelanguagetestsystem,简称CALT)的开发与应用是近年来国内外语言测试领域研究的核心热点方向。相对于传统的纸笔语言测试(Paper-and-pencillanguagetest,简称PPLT)或普通的计算机辅助语言测试(Computer-basedlanguagetest,简称CBLT),CALT有更加人性化、更高的精确性、出题更加灵活、施考及评分更简洁、以及测试效率更高等优势。
本研究的主要目的是:1)完成计算机自适应测试的大型题库的构建,该题库包括以下三种题型:完形填空、语法选择题、词汇选择题。在内容方面,该题库涵盖英语专业四级考试(TEM-4)要求的所有语法知识点和考试大纲所要求的所有词汇。2)在题库的基础上设计一个计算机自适应英语测试系统,并采用“评估使用论证”(AssessmentUseArgument,简称AUA)对该测试进度效度验证。
针对第一个研究目的,采用的主要研究方法是对过对1996年至2008年(不含1998年和2002年)间的英语专业四级考生数据进行数据处理和分析,筛选出符合题库建设需求的题目,编写入题库。使用AUA框架对本过程进行效度验证,并回答本阶段研究所讨论的的四个有关研究中题目是否适合IRT理论的问题。采用以下分析方法对数据进行处理:1)使用SPSS20.0进行探索性因子分析,并用AMOS7.0进行验证性因子分析,以检验单维性假设;2)用Bilog2.0对项目局部独立性假设进行检验;3)使用Bilog2.0中的2PLM对二元计分项目进行分析,用GRM及GPCM对多元计分项目进行分析;4)使用Bilog2.0以及SIBTEST对项目进行性别DIF检验,然后对存在性别DIF的项目进行内容分析,以确定该项目是否需要从题库中剔除。
针对第二个研究目的,设计三个步骤:CALT设计、模拟、运行与效度验证。在CALT设计方面,采用以下方法:测试按照完形填空,语法选择和词汇选择的顺序进行;2)项目选择采用最大信息量选择法(MaximumInformation,简称MI),并兼用内容平衡、曝光控制等措施;3)能力估计采用贝氏期望后验法(Expectedaposteriori,简称EAP);4)终止原则同时采用标准误差控制原则和总题量控制原则。在模拟方面采用了Firestar与R软件进行四次模拟运行。针对CALT运行与效度验证,采用的数据分析方法包括:1)SPSS20.0进行配对T检验,用AMOS7.0进行验证性因子分析;2)使用AMOS7.0对计算机熟悉度、TEM4成绩、CALT成绩进行结构方程模型建模;3)使用AMOS7.0对以上模型进行多群组结构方程模型分析。
本研究不仅设计一个涉及语法与词汇测试的CALT,填补了国内语言测试领域的一个研究空白,而且在国内外语言测试领域中首次尝试对CALT进行了较为系统的效度验证。在计算机技术已经日趋完善并对语言测试带来变革的今天,本研究在理论和实践上均具有重要意义。
在理论方面,本研究的效度难不再局限于CALT与PPLT之间的等效性,而是倡导更好地理解CALT所考查的构念,理解计算机熟悉度、语言能力与CALT所考查的构念之间的关系。其次,本研究尝试在测试分数解释方面使用AUA框架,在一定程度上促进基于论据的效度验证方法在语言测试领域得到更广泛的应用。
在实践方面,本研究介绍了CALT开发过程中的详细步骤,指出了以往研究在CALT题库建设方面存在的不足,有利于扩展CALT开发方面的知识,并能给考虑开发CALT系统的机构提供实证依据。其次,本研究针对计算机熟悉度对考生在CALT中表现的影响的探讨有助于CALT开发者与使用者更积极主动地预测CALT实施过程中可能遇到的问题,以针对性地采取解决方案,并更适当使用CALT的测试结果。
不可否认,本研究存在一定的局限性,未来研究可以从以下几个方面着手:1)本研究采用了多元计分IRT模型解决了局部独立性假设违反的问题,但是此方法的一大缺陷是项目层次信息的丢失,未来研究可以考虑彩多维IRT模型,如双因素模型(Bi-factormodel)、题组反应理论模型(Testletresponsetheorymodel),进行项目参数估计,从而保证项目层次信息的完整性;2)本研究采用的单独分析使同时参与分析的项目数量减少,在一定程度上加大了参数估计的误差,未来研究可以考虑彩双阶全信息项目因子分析模型进行参数估计,真正实现多维CALT创建;3)本研究仅从性别角度考查了CALT因子结构的一致性,未来研究可以从考生专业、生源地等角度着手;4)本研究主要基于定量分析研究CALT效度,未来研究可以采用定性分析方法研究考生在CALT中的认知过程,从而更好地探讨CALT的效度问题;5)本研究设计的CALT仅包括语法和词汇部分,而未涉及听力、阅读、写作与口语考试,随着自动评分技术的发展,未来研究可以尝试设计更全面的考查语言能力的CALT。
本研究的主要目的是:1)完成计算机自适应测试的大型题库的构建,该题库包括以下三种题型:完形填空、语法选择题、词汇选择题。在内容方面,该题库涵盖英语专业四级考试(TEM-4)要求的所有语法知识点和考试大纲所要求的所有词汇。2)在题库的基础上设计一个计算机自适应英语测试系统,并采用“评估使用论证”(AssessmentUseArgument,简称AUA)对该测试进度效度验证。
针对第一个研究目的,采用的主要研究方法是对过对1996年至2008年(不含1998年和2002年)间的英语专业四级考生数据进行数据处理和分析,筛选出符合题库建设需求的题目,编写入题库。使用AUA框架对本过程进行效度验证,并回答本阶段研究所讨论的的四个有关研究中题目是否适合IRT理论的问题。采用以下分析方法对数据进行处理:1)使用SPSS20.0进行探索性因子分析,并用AMOS7.0进行验证性因子分析,以检验单维性假设;2)用Bilog2.0对项目局部独立性假设进行检验;3)使用Bilog2.0中的2PLM对二元计分项目进行分析,用GRM及GPCM对多元计分项目进行分析;4)使用Bilog2.0以及SIBTEST对项目进行性别DIF检验,然后对存在性别DIF的项目进行内容分析,以确定该项目是否需要从题库中剔除。
针对第二个研究目的,设计三个步骤:CALT设计、模拟、运行与效度验证。在CALT设计方面,采用以下方法:测试按照完形填空,语法选择和词汇选择的顺序进行;2)项目选择采用最大信息量选择法(MaximumInformation,简称MI),并兼用内容平衡、曝光控制等措施;3)能力估计采用贝氏期望后验法(Expectedaposteriori,简称EAP);4)终止原则同时采用标准误差控制原则和总题量控制原则。在模拟方面采用了Firestar与R软件进行四次模拟运行。针对CALT运行与效度验证,采用的数据分析方法包括:1)SPSS20.0进行配对T检验,用AMOS7.0进行验证性因子分析;2)使用AMOS7.0对计算机熟悉度、TEM4成绩、CALT成绩进行结构方程模型建模;3)使用AMOS7.0对以上模型进行多群组结构方程模型分析。
本研究不仅设计一个涉及语法与词汇测试的CALT,填补了国内语言测试领域的一个研究空白,而且在国内外语言测试领域中首次尝试对CALT进行了较为系统的效度验证。在计算机技术已经日趋完善并对语言测试带来变革的今天,本研究在理论和实践上均具有重要意义。
在理论方面,本研究的效度难不再局限于CALT与PPLT之间的等效性,而是倡导更好地理解CALT所考查的构念,理解计算机熟悉度、语言能力与CALT所考查的构念之间的关系。其次,本研究尝试在测试分数解释方面使用AUA框架,在一定程度上促进基于论据的效度验证方法在语言测试领域得到更广泛的应用。
在实践方面,本研究介绍了CALT开发过程中的详细步骤,指出了以往研究在CALT题库建设方面存在的不足,有利于扩展CALT开发方面的知识,并能给考虑开发CALT系统的机构提供实证依据。其次,本研究针对计算机熟悉度对考生在CALT中表现的影响的探讨有助于CALT开发者与使用者更积极主动地预测CALT实施过程中可能遇到的问题,以针对性地采取解决方案,并更适当使用CALT的测试结果。
不可否认,本研究存在一定的局限性,未来研究可以从以下几个方面着手:1)本研究采用了多元计分IRT模型解决了局部独立性假设违反的问题,但是此方法的一大缺陷是项目层次信息的丢失,未来研究可以考虑彩多维IRT模型,如双因素模型(Bi-factormodel)、题组反应理论模型(Testletresponsetheorymodel),进行项目参数估计,从而保证项目层次信息的完整性;2)本研究采用的单独分析使同时参与分析的项目数量减少,在一定程度上加大了参数估计的误差,未来研究可以考虑彩双阶全信息项目因子分析模型进行参数估计,真正实现多维CALT创建;3)本研究仅从性别角度考查了CALT因子结构的一致性,未来研究可以从考生专业、生源地等角度着手;4)本研究主要基于定量分析研究CALT效度,未来研究可以采用定性分析方法研究考生在CALT中的认知过程,从而更好地探讨CALT的效度问题;5)本研究设计的CALT仅包括语法和词汇部分,而未涉及听力、阅读、写作与口语考试,随着自动评分技术的发展,未来研究可以尝试设计更全面的考查语言能力的CALT。