《面向教师的课堂语言测评》

主审:

总主编:

主编:

副主编:

编者:

作者:Lyle Bachman、Barbara Damböck

译者:何莲珍、闵尚超

书号:978-7-5213-4887-3

出版日期:2023/12/01

定价:¥85.9

  领读专家
何莲珍

浙江大学教授、博士生导师,教育部高等学校大学外语教学指导委员会主任委员,国际语言测试学会执行委员。研究方向为应用语言学、语言测试与评估,担任《外语教学与研究》、Language Assessment Quarterly 等国内外重要学术期刊编委。在相关领域发表论文近百篇,出版专著 6 部、国家级规划教材 30 余本。获省级、国家级教学成果奖,国家级教材建设奖,省部级哲学社会科学研究成果奖 10 余项,先后获评国家级教学名师、“新世纪百千万人才工程”国家级人选、浙江省特级专家。

研究方向:
  导读

本期推荐阅读的书籍是由著名语言测试专家Lyle Bachman教授和Barbara Damböck合著的《面向教师的课堂语言测评》。该书系统地介绍了一种创新的课堂测评设计方法——测评使用论证AUA)框架。通过理论与实践相结合的方式,作者向读者展示了如何通过该框架,将预期的积极后效与测评内容(即语言能力的某些方面)和测评方式(即测评任务的类型)相结合。通过这种方法,教师可以开发出与课堂教学紧密相关的测评,为教学组织和学生学习提供有价值的信息。全书分为四部分,共十二章,内容涵盖了从基本概念到实际操作的各个方面,深入浅出,适合外语教师、教育研究者以及相关专业学生阅读参考。

领读的第一阶段讨论第一至七章,重点介绍AUA这一方法。第一章介绍课堂测评方法的起源及本书的主要内容。第二章讨论测评在教学中的作用,介绍课堂测评相关的概念。第三章概述课堂测评研发和使用的概念性框架——AUA,第四至七章分别描述AUA四项主张中的一项,包括主张的结果和特征、陈述主张的过程以及可能为这些主张提供支撑或证据的方法。

领读的第二阶段讨论第八至十二章,重点关注如何使用AUA来研发测评任务。第八章讨论测评任务模板的研制程序,该模板把测评任务与AUA联系起来。第九章描述如何用一个测评任务模板创设多个测评任务第十章描述如何将单个的测评任务组合成一项课堂测评。第十一章讨论课堂测评施测的考量因素和程序。第十二章讨论对学生表现进行评分和报告结果的程序。

  思考题及解答
第一阶段
第二阶段
1. 语言教学任务与语言测评任务有哪些异同点?
何教授:语言教学任务是老师和学生共同参与的语言使用任务,其目的是提高学生的语言能力。语言测评任务是一种语言使用任务,其目的是采集学生的语言使用样本。 从这两个术语的定义中可以看出,语言教学任务和语言测评任务都是语言使用任务。它们的区别在于目的不同。语言教学任务的目的是提高学生的语言能力;而语言测评任务的目的是采集学生的语言使用样本,也就是学生的语言表现,它关注的是学生学了什么、学了多少。 此外,本书第11页的表2.1也从参与者、任务要求、任务目的这三个方面为大家呈现了语言教学任务和语言测评任务的异同,大家可以通过这个表格更直观地了解二者的异同。
2. 什么是形成性评估?什么是终结性评估?如何在教学中有效结合形成性评估和终结性评估,以支持学生的语言学习进步?
何教授:形成性评估(formative evaluation或formative assessment)指在教学过程中为了了解学生的学习情况,及时发现教学中的问题而进行的评估(assessment for learning)。终结性评估(summative evaluation或summative assessment)主要用于评价某一方案或教育全过程的教育效果及有效性,确定所做的努力是否达到了预定的教育目标(assessment of learning)。 二者的区别可以通过两个介词for和of来体现。形成性评估的目的是促进教学,注重过程;而终结性评估是对学习结果的评价,主要是看某一个方案或教育全过程(如某一个课程)的教学效果及有效性,注重成效。 形成性评估和终结性评估的目的是做出相应的决策,这就涉及形成性决策与终结性决策这两个概念。本书第13页的表2.2从决策目的、后续行动和实施时间这三个方面列出了这两个概念的区别。 由此可见,在教学中正确运用形成性评估和终结性评估,做出相应决策,可以从调整教学过程和保证教学效果等方面促进学生的语言学习。
3. 课堂语言测评的效度与公平性分别是什么?两者有何异同?
何教授:测试效度(validity)是指测量的有效性,即能测量到所要测量目标的程度。那么课堂语言测评的效度,就是指课堂语言测评在何种程度上达到了预期的语言测评目的。 一般来说,效度的作用比信度的作用更为重要。如果一个测验的效度很低,无论它的信度有多高,这项测验都没有应用价值。较高的效度是一个良好的测验最重要的特性,是必要条件,也是选择和评鉴测验的重要依据。有效的测试需专注于测其应测,同时避免意外测量其他不应包含的内容。效度验证是一个持续的过程,测试存在一天,效度验证就不能停止。 测试公平性(fairness)是测评使用的一个特征。测评使用的公平性取决于其能在多大程度上支持并向利益相关者证明从学生在测评任务中的表现到测评记录、决策、后效的各个环节的合理性。只要任何一个环节的合理性无法被证明,测评的使用就可能是不公平的。 关于课堂语言测评的效度和公平性之间的关系,我结合Xi(2010)这篇文献介绍一下常见的三种观点: 观点1:Fairness as an independent test quality。这种观点认为公平性是一个独立的测试质量标准,与效度是两个互不交叉的质量标准。观点2:Fairness as an all-encompassing test quality。这种观点认为公平性是一种上位标准,包含了效度标准。测试要想公平,必须先做到有效。观点3:Fairness linked directly to validity。这种观点认为公平性与效度密切相关。 这三种观点的具体含义以及哪些学者支持哪种观点,请大家去阅读该领域的文献。这里列出了几篇比较重要的文献,供大家参考:Xi, X. 2010. How do we go about investigating test fairness? Language Testing 27: 147-170.Davis, A. 2010. Test fairness: A response. Language Testing 27: 171-176.Kane, M. 2010. Validity and fairness. Language Testing 27: 177-182.Kunnan, A. 2010. Test fairness and Toulmin's argument structure. Language Testing 27: 183-189. 关于公平性研究,近年来我跟我的博士生也有两篇文章,供大家参考:何莲珍、张娟,2022,语言测试的公平性:内涵、公平观及研究启示,《外语教学与研究》(1):79-89。何莲珍、张娟,2024,“公平”的理论向度——兼论对语言测试公平性研究的启示,《浙江大学学报(人文社会科学版)》(5):122-130。
4. 预期后效的有益性指什么?决策的价值敏感性和公允性指什么?预期后效的有益性与决策的价值敏感性和公允性之间是什么关系?
何教授:思考题第4—6题均涉及测评使用论证(assessment use argument,简称AUA)框架的核心内容,理解清楚这个框架,才能更好地理解第4—6题中的概念。【注:篇幅所限,此处不再详细呈现何教授的解答文本,具体内容请参考《面向教师的课堂语言测评》的图3.1(第34页)和《语言测评实践:现实世界中的测试开发与使用论证》的Figure 2.3(第24页)】 【篇幅所限,本题答案请见本书第41—55页。】
5. 相关性、充分性、有意义、概推性、公正性分别指什么?这五个特征之间是什么关系?
【篇幅所限,本题答案请见本书第65—72页。】
6. 影响课堂测评分数一致性的可能因素有哪些?如何将不一致性因素降到最低?
何教授:一致性(consistent)指在考查同一语言能力的不同测评中(如不同的施测方式、不同的测评任务和不同的评分员),学生的表现在多大程度上能得出基本一致的测评记录。为了保证测评记录的一致性,需要做以下两件事:1)确定造成特定测评中不一致性的可能来源;2)说明你将如何应对这些不一致性的来源,以将其对测评记录的影响降至最低限度。 本书第82页从三个方面列举了不一致性的可能来源。明确不一致性的可能来源之后,我们可以从五个方面出发,把不一致性来源的影响降至最低限度。1)明确规定施测程序。确保在不同时间、对不同学生群体、由不同老师实施的测评始终遵循同样的程序。2)为每一种测评任务类型准备测评任务规范或模板。确保所有的任务都根据这个模板进行研发。在测评中包括足够多的测评任务,以获得具有一致性的分数。3)明确规定每个测评任务类型的评分方法。确保评分方法(包括评分标准或评分量表)具有一致性。4)如果评分员要对测评进行评分:(1)需研制清晰易懂的评分量表;(2)如果涉及多位评分员,需对评分员进行评分量表使用方面的培训;(3)需定期监测评分的一致性。5)在测评中包括足够数量的测评任务,以获得具有一致性的分数。
1. 如何设计测评任务模板?包括哪些步骤?设计测评任务模板的意义是什么?
闵教授:设计测评任务主要包括五个步骤:(1)选择目标语使用任务。这是研发测评任务模板的基础,我们希望通过测评任务诱发的学生表现能够概推到学生的目标语使用域中。(2)描述目标语使用任务。通常我们会用场景、输入、预期应答这三组任务特征描述目标语使用任务。(3)修改目标语使用任务,研制测评任务模板。这是因为目标语使用任务本身比较可能比较复杂、耗时,且无法帮助我们获取学生个体的测评记录。(4)研制记录/评定学生表现的方法。我们需要设计一种记录学生表现的方法,明确测评记录类型,以及评分标准。(5)从有意义、概推性、公正性、一致性和可行性等测评特征方面对测评任务模板进行评价。这五个任务特征分别解决以下问题: - 基于该任务模板的测评任务在多大程度上能诱发想要考查的能力?(有意义) - 基于该任务模板的测评任务与目标语使用任务的对应关系有多紧密?(概推性) - 基于该任务模板的测评任务如何避免偏颇?(公正性) - 测评记录的一致性如何?(一致性) - 测评任务施测和评分的可操作性如何?(可行性) 设计测评任务模板的意义在于:(1)测评任务模板能提供结构化的测评设计方法。(2)通过测评任务模板将测评任务与测评使用论证(Assessment Use Argument,简称AUA)联系起来,可以确保用测评任务模板研发的测评任务能支持有意义、概推性、公正性和一致性等测评特征,并且这些任务具有可行性。 根据测评任务模板可以研发多项测评任务,如本书图9.1所示。
2. 什么是蓝图?如何用蓝图指导测评研发?
闵教授:蓝图是一份详细的方案,规定测评的内容和格式以及施测的程序和指令。本书表10.1给出了蓝图的组成部分。篇幅所限,有关蓝图的示例请见本书第141-145页。 对于如何使用蓝图指导测评研发,我们通常有以下情景和做法:(1)由一位老师研发的测评。通过将多个测评任务模板组合成蓝图,老师可以有效设计出涵盖多任务的课堂测评。(2)由一组老师或不同老师研发的测评。在多个教师合作的情况下(如不同班级的期末考试),使用统一的蓝图能确保测评解释具有一致性和概推性。(3)不同时间进行的各类长期测评。例如,在学期内进行的多次单元测评可采用相同的蓝图,通过调整任务来反映每个单元的不同教学重点,确保测评结果在学年总成绩中具有连贯性。
3. 为什么说明确施测程序对保障课堂测评很重要?请举例说明在实际课堂中如何通过施测流程避免不公平现象。
闵教授:明确施测流程有助于确保学生在测评中的表现能够真实反映他们的语言能力,并避免因不一致的施测条件而产生的偏差,从而确保测评的公平性。例如,对于听力考试,如果一个小组在嘈杂的环境中进行测评,而另一个小组在安静的环境中进行测评,可能会对学生的表现造成不公平的影响。因此,确保每个小组的测评条件一致是非常重要的。
4. 什么是整体评分量表?什么是分项评分量表?各自有何优缺点?
闵教授:整体评分量表(有时也称为“整体性”量表)指从整体质量或能力水平来对学生的表现进行评分的量表。整体评分量表为学生的测评表现提供一个整体的水平等级或分数。例如,本书表12.3给出了《欧洲语言共同参考框架》作为整体评分量表的示例。 整体评分量表的优点在于:(1)评分快速、直观简便;(2)适合大规模、高风险测评。它的缺点在于:(1)仅给出总分,缺乏细节,无法为学生提供有针对性的反馈;(2)评分主观性较强;(3)不适合课堂测评。 分项评分量表指对学生的表现在多个维度上进行评分,各维度单独评分。分项评分量表为学生在测评中的表现提供几个不同水平等级或不同分数的“概述”。本书表12.4给出了分项评分量表的示例。 分项评分量表的优点在于:(1)细化评分维度,评估更细致;(2)提供详细反馈,帮助理解各项能力表现。它的缺点在于:(1)过程较为复杂,耗时较长;(2)“见树不见林”,评分聚焦测评任务的具体表现,无法反映学生的总体状况;(3)对评分员要求较高,需要更多培训。
5. 如何看待课堂测评中的成绩正态分布?
闵教授:在课堂测评中,我们不应该通过正态分布来给学生评分。正态分布更多的是用在大规模高风险的考试情景下,属于常模参照,在课堂测评中要坚决杜绝。课堂测评中应用常模参照存在如下问题:(1)即使大多数学生达标,只有少部分能获得高等级。(2)部分学生即使达到70%的正确率,仍可能得到不及格。(3)对学生的学习产生负面影响,如引发竞争、削弱合作;打击学生积极性;以排序为基础,无法反应学生是否掌握学习目标。
6. 测评有何后效?测评影响哪些利益相关者?
闵教授:有关测评的后效(washback),本书及第一阶段何莲珍教授的答疑都有提及。这里不再赘述,主要给大家推荐一些相关文献。(1)Alderson, J. C., & Wall, D. (1993). Does washback exist? Applied Linguistics, 14(2), 115-129.(2)Ali, M., & Hamid, M. (2020). Teaching English to the test: Why does negative washback exist within secondary education in Bangladesh? Language Assessment Quarterly, 17(2), 129-146.(3)Cheng, L., Sun, Y., & Ma, J. (2015). Review of washback research literature within Kane’s argument-based validation framework. Language Teaching, 48(4), 436-470.(4)Messick, S. (1996). Validity and washback in language testing. Language Testing, 13(3), 241-256.(5)Spratt, M. (2005). Washback and the classroom: The implications for teaching and learning of studies of washback from exams. Language Teaching Research, 9(1), 5-29.(6)Tsang, C. L., & Issacs, T. (2022). Hong Kong secondary students’ perspectives on selecting test difficulty level and learner washback: Effects of a graded approach to assessment. Language Testing, 39(2), 212-238. 利益相关者(stakeholders)是指可能受测评使用影响或得益于测评使用的人、语言项目或课程,或者机构。我们自己(教师)和我们的学生(考生)始终是利益相关者。此外,就某一项特定的测评而言,利益相关者可能还包括我们的同事、学校管理者、学生家长/监护人、雇主、政府官员和公众等。
7. 使用AUA指导课堂语言测试的最大优势与挑战是什么?
闵教授:AUA框架(见下图,即Figure 5.1)包含测评研发和测评使用这两个双向关系,效度验证贯穿测评始终。AUA框架将预期后效与测评任务表现有效串联起来,形成一个逻辑链。特定测评项目的AUA包括以下四项主张:(1)使用测评的预期后效;(2)预期决策;(3)预期解释;(4)预期测评记录。Figure 5.1 Inferential links from consequences to assessment performance (Bachman & Palmer 2010: 93) 总体来说AUA可帮助实现两个目的:(1)指导语言测评的研发和使用,并为测评研发全过程中的质量控制提供依据;(2)为测试研发人员(test developers)和决策者(decision makers)提供依据,使他们对测评使用和由此做出的决策所影响的人员负责。 AUA的优势主要体现在如下四个方面:(1)系统性:为课堂语言测评提供系统化、结构化验证过程;(2)实操性:强调测评在实际应用中的合理性;(3)严谨性:强调推理和证据;(4)灵活性:帮助教师调整测评以满足不同教学情境和学习者的需求。 当然,使用AUA研发测评也面临一些挑战,主要体现在如下三个方面:(1)复杂性:需要充足证据;(2)专业性:要求教师具备一定的测评研发素养;(3)一致性:不同教师可能在理解和应用框架时有不同的侧重点,可能导致测评结果可比性下降。