高中英语教师语言测评素养自评量表的开发与验证

发布时间:2023-09-16 20:18:03 来源:网友投稿

秦惠康潘鸣威

摘要：
研究在回顾语言测评素养概念和测量工具相关文献的基础上，构建可用于测量高中英语教师语言测评素养的自评量表。研究发现，该量表由测评与教学实践、测评结果与使用、语言测试基本原理、命题技巧与测评方法、测评道德伦理及对测评的态度等因子构成。量表的信效度较理想，可由结构方程模型得出其内部结构。自评量表在一定程度上说明不同群体在提升英语测评素养方面应有不同的侧重点。

关键词：
语言测评素养；
描述；
高中英语教师；
量表开发与验证

《深化新时代教育评价改革总体方案》指出，教育评价要“改进结果评价，强化过程评价，探索增值评价，健全综合评价”。1 在这一背景下，高中英语教师应具备一定语言测评素养2 （language assessment literacy）用以有效开展评价工作。然而，教师在实施测评过程中需要细分评价方法和整体考量评价结果。比如，一线教师除掌握结果评价的有关知识与技能外，还应知晓结果过程评价的操作方法；
教研员则应更多注重评价结果的合理使用，为后续教学活动提供指南。因此，不同群体高中英语教师语言测评素养应有所差异。3 基于此，本文在回顾语言测评素养文献的基础上，构建并验证以“能做”描述构成的语言测评素养量表，以期对“双减”背景下评价的减负增效以及教育评价改革中的分类评价方法提供依据。

一、语言测评素养

1.语言测评素养的定义和构成

語言测评素养是指教师对语言测试和评价理论、技术以及涉及伦理问题的熟悉程度。这一概念最初由斯蒂金斯（Stiggins）提出，泛指在测评领域的利益相关者所需了解的技能与知识，并被视为评判优秀教师的重要标准。45 在问责制影响下，研究者提出，测评素养的定义需跨越教育评价领域，形成更全面、综合和动态的构念，应既体现当前测评的社会属性1，又体现语言测评本身的特点2，且需兼具课堂内外的不同测评实践。3 这是学界以社会建构主义视角对测评素养的最新思考，与课堂测评和动态测评等理念契合。本研究以文献为基础，将高中英语教师语言测评素养定义为：对高中学段英语学科测试与评价相关理论和实践的掌握度、熟悉度以及接受度。

此外，研究者也不断探究测评素养的构成。印巴鲁尼（Inbar-Lourie）提出语言教师测评素养知识库，将测评人员的知识体系和结构定义为由测评素养技能和具体语言能力共同形成的测评素养整体，重点包括“为什么”“是什么”“怎么做”三个维度。4 戴维斯（Davies）通过对语言测试书籍开展历时分析，提出包括知识、技能和原则的语言测评素养框架。5 泰勒（Taylor）指出，语言测评标准、道德规范以及测评实践指南的构建是语言测评领域专业化的必然，需从教育需求、就业需求以及社会政治等方面对语言测评素养加以定义。6 皮尔（Pill）等借助科学素养的研究框架构建了语言测评素养连续体，分为缺乏素养、基本识记素养、功能性素养、程序性及概念性素养和多维素养。7 沿着这一路径，研究者将相关群体分为语言教师、考试开发者等六类，指出不同群体在语言测评素养的不同表现。89 本研究认为，语言测评素养的构成是多维的。就高中英语学科而言，这主要由学科测评理论与实践、测评结果使用以及测评素养提升接受度等组成。

2.语言测评素养的测量工具

国际上，测量语言测评素养通常建立在教育主管部门出台的教师准入标准之上，其中包括测评素养。虽然各国标准存在共性，但因目的、用途等因素不同，在测评素养的标准设定上存在细微差异。德卢卡（DeLuca）等曾对美国、欧洲等教师准入标准开展主题分析，发现这些标准均涉及教师对测评目的、测评过程、测评结果沟通、测评公平性、测评伦理道德、测量理论知识等的知晓度。10 基于这些标准，研究者开发了语言测评素养量具，如普莱克（Plake）和因帕拉托（Impara）基于美国《学生教育评价中的教师能力标准》研发的教师评价素养问卷11，莫特勒（Mertler）和坎贝尔（Campbell）结合课堂测评开发的课堂测评素养清单12，克雷梅尔（Kremmel）和哈丁（Harding）根据不同利益相关群体设计的语言测评素养多维度问卷等。13 国内也有学者将测评素养与考试紧密结合，形成教师的考试素养。14

教师准入标准和有关语言测评素养量表对弥补教师语言测评素养的短板具有深远意义。但由于我国高中英语教学的特殊性，专门用于高中英语教师测评素养的量具仍是空白，无法实现精准自测和测评能力提升的目的。此外，各国的语言测评素养量具也存在不足。第一，量具大多拓展了测评素养的内涵，展示了一种规范性概念，不可直接用于自评。而且有些标准往往忽略英语教师对测评素养的心理接受度等情感因素。第二，虽然现有量具已涉及不同利益相关方在语言测评素养上的差异，但尚未充分体现测评情景对测评素养的影响。我国的教师准入标准通常与师风师德、学历背景等有关，与测评素养相关的内容较为鲜见1，现有的有关调研也表明我国各学段教师的语言测评素养仍有很大提升空间。23 因此，构建符合我国高中英语教师语言测评素养自评量表是发展高中英语教师综合素质，落实分层分类评价的重要任务。

二、高中英语教师语言测评素养量表的开发

1.量表研制的前期思考

为了构建符合我国国情且适合高中学段的英语教师语言测评素养自评量表（以下简称“量表”），在研制过程中，笔者重点思考了三个问题：

第一，量表所涉及的使用人群。本研究所研制的量表要充分考虑高中英语教师中的不同群体。4本研究结合我国高中英语的实际情况，拟将不同群体分为三类：第一类是语言测评专业人士，主要指专业从事语言评价研究者，如省级命题专家；
第二类是高中英语教研员，在语言测评专业人士与一线教师之间搭建桥梁；
第三类是一线高中英语教师。

第二，量表的呈现形式。量表既要满足高中英语教师自评的需要，也要对量表的测量结果提供切实有效的学习材料。因此，在量表呈现形式上，本研究提出使用五级量表的自评方案，对应前文提及的五级素养。5 这样，高中英语教师就可通过量表的各维度得到测评素养自评结果。

第三，量表的校标效度验证。由于我国尚无公开发表的测评素养量表，因此无法建立较为理想的校标。此外，由于各国国情不同，国外的相关量表虽然具有一定的借鉴意义，但只能作为参考依据，且本量表针对高中学段，因而本研究仅涉及对量表信效度和内部结构的验证。

2.量表的研制过程

量表研制分为三个阶段：

第一阶段是量表的初步形成阶段。本研究通过收集国内外教师教育标准、教师准入标准以及语言测评素养量表等文献，以文献分析法提炼出适合我国高中英语教育实际情况的量表描述语，并逐条打磨成表。

第二阶段是量表的试用阶段。本研究通过小样本试测来考察量表在措辞清晰度、使用友好性等方面的问题，并依据专家判断的结果进行修改。具体而言，第二阶段分为两步：第一步是小规模试测。分层抽样选取20名高中英语教师，其中12名教龄为20年以上，5名为某市区高中英语教研员，3名为高考命题专家。试测的受试分布覆盖前文所提及的三个群体，具有一定代表性。第二步是专家判断。本研究邀请了2名长期从事英语高考研究与命题的高校教师对量表进行专家判断。在第二阶段中，专家评判的教师所需自评时长为22—25分钟，满足教师自评的认知负荷要求。

第三阶段在前期准备基础上形成问题清单，并结合量表在适用性、措辞、呈现形式等方面进行优化。随后，基于便利性原则，通过问卷星在2021年12月以分层抽样方式邀请上海市、浙江省、江苏省和江西省四地高中英语教师完成量表自评，最终收到有效作答228份。其中，约61%受试为高中英语一线教师；
高中英语教研员占19%；
语言测评专业人士（含高校教师）为20%。这些受试在比例上基本符合我国高中英语教师群体中从事语言测评工作的人群比例。6 此外，所有受试的作答平均时长为19.9分钟。其中，一线英语教师作答时间最长（23.9分钟），教研员（19.3分钟）和语言测评专业人士（18.8分钟）较快。

3.量表的内容与结构

通过以上小规模试测和专家建议，本研究形成了量表的内容与结构（见表1）。量表在构成上共分为三个部分：第一部分位于自评之前，用于确定受试身份，即受试需确定以何种工作身份进行自评（语言测试专业人士、一线教师或教研员）。第二部分是自评说明，解释了量表中0—4所分别代表的意义。第三部分则是量表的核心内容，共包括53条与测评素养有关的自评描述语。

三、高中英语教师语言测评素养量表的验证

1.量表的效度验证

本研究第三阶段是验证量表的信度、效度和内部结构。通过SPSS软件的主成分因子分析，先对潜在因子归类并命名，然后利用EQS软件用结构方程建模探索量表的内部结构。

由Cronbach α信度值0.891可知，量表内部一致性较理想。量表自评的数据值分析中，KMO值为0.798（0.7

通过斜交旋转，表3列出量表项目对潜在因子的负荷（已隐去因子负荷为0.3以下的项）。由此，共提取5个潜在因子：因子一由量表第1—13项构成，因子二由量表第14—21项构成，因子三由量表第22—33项构成，因子四由量表第34—47项构成，因子五由量表第48—52項构成。潜在因子共可解释71.78%的方差。

与表2结果一致，表3中第36项和第47项存在跨因子现象。基于因子负荷的数值以及可解释性考量，将这两项分别归入因子三和因子四。此外，由于发生斜交旋转，本研究还通过相关矩阵来观察潜在因子间的相关性。结果发现，5个潜在因子之间均无显著性相关，说明因子之间独立。但因子三和因子四的相关系数为0.302，相关性稍高。

随后，命名5个潜在因子。因子一（第1—13项）：英语测评与英语教学实践（D1）；
因子二（第14—22项）：英语考试结果与使用（D2）；
因子三（第23—33项）：语言测评基本原理（D3）；
因子四（第34—47项）：命题技巧与测评方法（D4）；
因子五（第48—53项）：语言测评的道德伦理及对语言测评的态度（D5）。这些因子集中反映了量表项目的各范畴。因子三和因子四虽分别是“语言测评基本原理”和“命题技巧与测评方法”，但从内容上仍很难完全做到泾渭分明1，这也从一定程度上解释了前文跨因子现象和潜在因子相关系数略高的问题。

通过结构方程建模，本研究初步得到量表的内部结构，如图1所示。在此模型中，5个潜在因子对量表中的语言测评素养均有较理想的解释力。但如前文所述，D3和D4的相关性略高。因而，局部调整模型结构，将这两个因子间形成协方差后，模型的拟合度指标更理想：GFI（0.99）、AGFI（0.96）、TLI（0.99）、NFI（0.99）的值均接近于1（1表示完全拟合）。RMSEA值（0.07）控制在可接受区间0.05至0.08之间。PNFI值为0.10，与完全拟合值0接近。2 说明建立协方差后的修正模型更理想，这也与量表内部结构的解释力相符。

如图1路径分析显示，每个因子对语言测评素养的贡献负荷介于0.74—0.89之间，且测量误基本控制在0.5以下。但e2的测量误为1.32，虽比其他因子的测量误高，但仍在可接受范围内。此外，e2和e3之间的协方差测量误为0.22，说明两者虽在测量中有交互，但因子之间的交互测量误差较低。

综上，将量表所建立的结构方程模型表述为：高中英语教师语言测评素养= 0.77D1+0.74D2+0.88D3+0.87D4+0.89D5+E。其中，D3、D4和D5是提升高中英语教师语言测评素养的关键，涉及测评的原理、方法、准则以及教师对提升测评素养的接受度等。

2.量表在不同群體中的应用

本研究在应用量表时主要呈现高中英语一线教师和教研员两大群体。应该指出，由于教研员数量本身较少，由量表所得出的结构模型仅能从一定程度上反映这一群体的测评素养构成。但由于这一群体又极为重要，可形成与一线教师的对比，因而本研究在应用以上结构方程模型的基础上，得到这两个群体的语言测评素养结构模型，且拟合度指标较为理想，分别表述为：

一线教师语言测评素养= 0.88D1+0.45D2+0.80D3+0.82D4+0.31D5+E1

教研员语言测评素养= 0.85D1+0.87D2+0.91D3+0.90D4+0.50D5+E2

比较两者可知，两类群体在不同因子上的维度系数有所不同。总体上，教研员在测评素养各维度系数都要高于一线教师，但后者在D1上的维度系数却略高。由于D1涉及英语测评与英语教学实践，因此，一线教师在英语教学实践方面的素养可能更胜一筹，相应的维度系数也略高。就D2（英语测评结果与使用）而言，一线教师结构方程模型中D2的维度系数（0.45）表明，这一因子对语言测评素养的贡献度不高。究其原因，一线教师更多涉及低利害的过程评价，这些测评在结果使用上尚未与高利害考试的结果同等重要，因而一线教师所需具备的测评知识也相对有限。相比较而言，教研员在D2因子上的维度系数较高（0.87）。这说明教研员不仅具备过程评价方面的素养，也应具备测评专业知识（如需命制区一级的质量检测试题等），包括测评设计与实施、分数报道与分析、结果解读、沟通、使用与外推等。12 D3和D4的维度系数在这两个群体中的差异不明显，且均不高。这说明对于高中英语教师而言，语言测试道德伦理方面的要求虽不高，也与以往研究中对高利害考试从业者的要求不同34，但却是今后高中英语教师测评素养提升的关键一环（如对考试结果的分析、沟通与保密等）。如上所述，虽然以荷载大小的比较仅从侧面反映出教研员和一线教师在测评素养方面的不同，但也一定程度上说明不同群体在提升英语测评素养方面应有不同的侧重点，这可较为直接体现教育分类评价和精准评价的本质和要求。

四、结语

本研究基于有关文献，开发并验证了高中英语教师语言评价素养的自评量表，并提出自评量表由英语测评与英语教学实践、英语测评结果与使用、语言测试基本原理、命题技巧与测评方法、语言测评的道德伦理及对语言测评的态度等因子构成，且具有较为理想的信效度。

在我国“双减”和教育评价改革的背景下，高中英语教师应具备较高测评素养，为有效开展终结性与形成性评价奠定基础。自评量表作为量具，可为高中英语教师提供测评素养方面的诊断信息。不同教师群体可结合自身实际，夯实既有的优势维度，弥补不足之处，体现分类评价对不同高中教师群体的差异化要求。此外，语言测评素养并非完全静态的概念，高中英语教师在测评实践中可利用本自评量表来跟踪自身测评素养的发展轨迹，形成语言测评素养的动态提升机制，为教师发展提供可持续的保障。

Developing and Validating a Language Assessment Literacy Self-rating Scale for High School English Teachers in China

QIN Huikang1，PAN Mingwei2

（1.Shanghai Jiading Institute of Education，Shanghai，201808;2.College Studies of English ，Shanghai International Studies University，Shanghai，200083）

Abstract：
This study first reviews the extant literature on the construct and measurement instruments of language assessment literacy （LAL）， on the basis of which， a self-rating scale is developed to measure LAL of high school English teachers. It has found that the scale consists of the followings factors：
assessment and teaching practice， assessment result and use， basic assessment principles， test writing technique， assessment ethics and attitude towards assessment. Through factor analysis and structural equation modelling， this scale is validated in terms of its reliability and validity as well as its internal structure. The self-rating scale， to a certain extent， shows that different groups should have different emphasis on improving their respective LAL.

Key words：
language assessment literacy， can-do description， high school English teachers， scale development and validation

基金項目：本文系上海外国语大学科研创新团队项目“人工智能发展中的语言习得和语言测试前沿研究”（项目编号：2020114050）的阶段性成果。

作者简介：秦惠康，上海市嘉定区教育学院挂职院长助理，中学高级教师，硕士，主要从事学科教研管理和英语教学研究；
潘鸣威，上海外国语大学英语学院教授，博士生导师，博士，主要从事语言测试与评价研究。

1 中华人民共和国教育部：《深化新时代教育评价改革总体方案》，载教育部官网：http：//www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html，最后登录日期：2023年1月17日。

2 不同文献中对此术语的翻译略有不同，如评估素养、测评素养、考试素养等。本文统一使用“测评素养”。

3 金艳：《外语教师评价素养发展：理论框架和路径探索》，《外语教育前沿研究》2018年第2期，第65-72页。

1 Stiggins， R. J.， “Assessment Literacy”， Phi Delta Kappan， Vol.72， no.7（1991）， pp.534-539.

2 AFT NCME NEA， Standards for Teacher Competence in Educational Assessment of Students， Washington：
National Council on Measurement in Education， 2014.

3 McNamara， T. Roever， C. Language Testing：
The Social Dimension， Malden：
Blackwell， 2006.

4 Taylor， L.， “Developing Assessment Literacy”， Annual Review of Applied Linguistics， no. 29（2009）， pp. 21-36.

5 Inbar-Lourie， O.， “Language Assessment Literacy”， Language Testing and Assessment， no.4 （2017）， pp. 257-270.

6 Inbar-Lourie， O.， “Language Assessment Literacy”， Language Testing and Assessment， no.4 （2017）， pp. 257-270.

7 Davies. A.， “Textbook Trends in Teaching Language Testing”， Language Testing， Vol. 25， no. 3（2008）， pp.327-348.

8 Taylor， L.， “Developing Assessment Literacy”， Annual Review of Applied Linguistics， no. 29（2009）， pp. 21-36.

9 Pill， J. Harding， L.， “Defining the Language Assessment Literacy Gap：
Evidence from a Parliamentary Inquiry”， Language Testing， Vol. 30， no. 3（2013）， pp.381-402.

10 Harding， L. Kremmel， B.， “Teacher Assessment Literacy and Professional Development”， in Tsagari， D.， & Banerjee， J. （Eds.）， Handbook of Second Language Assessment， Berlin：
De Gruyter， 2016， pp. 413-428.

11 Kremmel， B. Harding， L.， “Towards a Comprehensive， Empirical Model of Language Assessment Literacy Across Stakeholder Groups：
Developing the Language Assessment Literacy Survey”， Language Assessment Quarterly， Vol. 17， no. 1（2019）， pp. 1-21.

12 Deluca， C. Lapointe-Mcewan， D. Luhanga， U.， “Teacher assessment literacy：
A review of international standards and measures”， Educational Assessment， Evaluation and Accountability， Vol. 28， no. 3（2016）， pp. 251-272.

13 Plake， B. S. Impara， J. C.， Teacher Competencies Questionnaire Description， Lincoln， NE：
University of Nebraska， 1992.

14 Mertler， C. A. Campbell， C.， “Measuring Teachers Knowledge and Application of Classroom Assessment Concepts：
Development of the Assessment Literacy Inventory”， Presentation at the Annual meeting of the American Educational Research Association， Montreal， 2005.

1 Kremmel， B. Harding， L.， “Towards a Comprehensive， Empirical Model of Language Assessment Literacy Across Stakeholder Groups：
Developing the Language Assessment Literacy Survey”， Language Assessment Quarterly， Vol. 17， no. 1（2019）， pp. 1-21.

2 张远增：《论教师的“考试素养”及其评估》，《教师教育研究》2015年第5期，第47-54页。

3 贾洪芳：《中国教育考试质量标准研制初探——以美国〈教育与心理测量标准〉为例》，《当代教育科学》2017年第1期，第84-87页。

4 郑东辉，叶盛楠：《中小学教师课堂评价知识及其来源的研究——基于浙江省的样本调查》，《教育发展研究》2012年第20期，第68-78页。

5 贾林芝：《“教—评一体化”视域下教师校内学业评价素养现状调研》，《教育发展研究》2020年第20期，第53-61页。

6 熊建辉：《教师专业标准研究》，华东师范大学博士学位论文，2008年。

7 Pill， J. Harding， L.， “Defining the Language Assessment Literacy Gap：
Evidence from a Parliamentary Inquiry”， Language Testing， Vol. 30， no. 3（2013）， pp. 381-402.

1 Harding， L. Kremmel， B.， “Teacher Assessment Literacy and Professional Development”， in Tsagari， D.， & Banerjee， J. （Eds.）， Handbook of Second Language Assessment ， Berlin：
De Gruyter， 2016， pp.413-428.

1 Hu， L. Bentler， P. M.， “Cutoff Criteria for Fit Indexes in Covariance Structure Analysis：
Conventional Criteria Versus New Alternatives”， Structural Equation Modeling， Vol. 6， no. 1（1999）， pp. 1-55.

2 Harding， L. Kremmel， B.， “Teacher Assessment Literacy and Professional Development”， in Tsagari， D.， & Banerjee， J. （Eds.）， Handbook of Second Language Assessment， Berlin：
De Gruyter， 2016， pp.413-428.

3 张远增：《论教师的“考试素养”及其评估》，《教师教育研究》2015年第5期，第47-54页。

2 潘鳴威：《外语教师语言测评素养再探——基于对语言测试专家的访谈》，《中国考试》2020年第7期，第34-41页。

推荐访问:素养测评自评