摘要场景化评估为教师能力评估从评判向赋能转向提供了新的可能路径。本文首先明晰了教师能力场景化评估的内涵、特征与价值取向探讨了生成式人工智能赋能教育评估的现状与技术机制提出了生成式人工智能赋能教师能力场景化评估的框架与路径然后阐释了生成式人工智能辅助评估场景生成的三种方式非结构化指令驱动生成、结构化框架引导生成和动态指令驱动的自适应生成并说明了数据采集与预处理、多模态数据融合、行为模式识别与推断、人机协同分析四个关键数据融合分析环节为动态场景生成和多维数据分析提供支撑最后通过三个典型案例阐释了如何将理论框架转化为可操作的评估实践。关键词场景化评估教师能力评估生成式人工智能人机协同评估设计人机协同评估实施一、引言能力评估是撬动教师专业发展的重要举措。在人工智能深刻变革教与学模式的背景下教师能力评估范式创新已成为教师发展数字化的重要任务。传统的教师能力评估主要沿着两条技术路径展开一是基于自陈量表如问卷、知识测试与级差表等的评估。它便于规模化实施却因依赖主观报告、简化真实教学情境、难以捕捉外显行为等而受质疑。二是基于客观证据的专家评估。它的外部效度较好但高度依赖专家资源成本高昂、效率低下难以实现常态化与规模化推广。二条路径不同但都面临规模化效率与评估精准度难以兼顾的矛盾都未构建起“诊断一反馈一改进”的发展闭环削弱了评估赋能教师学习的价值。评估应与真实教育教学情景相融合同时应与教师专业发展机会相连Darling-Hammond et al., 2012。场景化评估scenario-based assessment, SBA作为一种新兴评估范式通过构建真实或拟真任务情境通过采集过程性行为数据实现对复杂能力的多维度测量。近年来这种评估在教育、工程、医学、自动驾驶等领域展现出显著优势弥合了抽象测评与现实应用之间的鸿沟使评估结果更具生态效度和预测价值。生成式人工智能的发展尤其情境理解与生成、自然语言交互、复杂模式识别与分析、个性化反馈及高效场景模拟等技术的进步为场景化评估提供了强有力的技术支持使其能走向个性化、规模化与智能化破解教师能力评估中情境简化、过程忽略、反馈滞后与支持有限等困境推动教师能力评估从评判向赋能的范式转变。二、基本内涵一定义与特征场景化评估亦称基于场景的评估是一种依托真实性评价与证据中心设计理论以情境为载体、任务为驱动、行为表现为核心证据的创新评估方法。真实性评价强调在拟真情境中激发教师的实践性知识与深度反思证据中心设计理论构建了“从行为证据到能力推断”的评估逻辑。这两种理论的融合应用再结合人工智能技术的支持场景化评估能实现对复杂能力的全方位分析与评价。围绕场景化评估顾小清2024提出场景化测评是通过深入模拟、整合真实情境来全面评估个体在特定情境中的认知行为、决策能力或高级思维等的测评方式。郭炯等2025将其定义为依托真实任务情境通过采集学习者行为流数据结合学生模型、任务模型与证据模型实现多维度能力测评的评估范式。在语言学习领域研究者认为这是一种基于技术的创新评估方法试图将评估与环境如学校、角色如同学和老师和总体目标如完成科学博览会的项目相结合通过模拟现实生活的语言使用环境激发学习者独立的和综合的语言技能Banerjee2019。可见场景化评估强调通过模拟真实情境、采集多源数据并运用多种分析模型实现对能力的多维度诊断具有场景真实性、数据融合性与反馈及时性三大核心特征。场景真实性。这是场景化评估区别于传统标准化测试的核心特征。在教师能力评估中构建真实或高仿真教学情境让评估任务反映测评对象的实际环境和条件能提高评估的表面效度和生态效度。但真实性不限于物理拟真更强调逻辑约束和情境压力以使测评结果具有现实迁移价值。数据融合性。场景化评估侧重观察和评估受测者在模拟情境中实际做了什么行为表现及如何做动态过程然后通过分析多源数据确保结果全面和客观。这些多源异构数据包括认知、行为、情感、教师教学行为日志与教学设计方案等再结合教师的反应、操作步骤、解决方案、决策过程和任务结果等进行分析和判断。反馈及时性。场景化评估能实现及时、个性化的分析和反馈方便教师对照目标自我修正和反思并逐步学会自我监控、自我评估与自我调节激发其学习内驱力进而实现深度学习。二评估范式与场景化评估定位教师能力评估范式随着教育理念、学习方式和技术条件的演变而不断演进大致可分为四种基于心理测量学的标准化测试、成果导向的绩效评估、情景嵌入的发展性评估和人机协同的智能化评估。基于心理测量学的标准化测试将教师能力视为一系列可观测、可量化的孤立行为或知识点的集合评估方式以纸笔测验如学科知识测试和结构化观察量表为主追求客观、统一和常模参照便于大规模实施但存在主观性强、易受自我认知偏差影响等局限Paulhus et al., 2007。成果导向的绩效评估以教师能力模型为核心在界定优秀教师应具备的知识、技能和特质基础上依据教师实践表现与教育教学成果如教学设计、课堂实录、学生成果等开展评价。该范式依赖评估者的专业素质成本高难以规模化实施。情景嵌入的发展性评估以促进教师反思、改进与专业自主为目的强调融入教师生活情境及过程性表现关注教师的整体素质及未来规划有助于实现从评判到发展的功能转向刘尧2001。它虽然可以借助数字技术进行诊断和分析但存在实施路径不明、标准不清晰和开发成本较高等问题。智能技术的快速发展使得教育评价迈入人机协同的崭新阶段郭炯等2025教育评价既能兼顾效率、规模与客观性又具备支持诊断、反馈与赋能发展的潜力。场景化评估本质上是对上述范式的整合和升华见图1。它融合了发展性评估的赋能价值导向与智能化评估的动态增强技术特质旨在解决传统发展性评估难以规模化、精准化的痼疾即通过智能技术的运用低成本、自动化创设真实、互动与复杂的情景实现大规模个性化评估再依托多模态的过程性数据分析技术持续捕捉教学行为、认知决策与情感互动等证据在真实的情境中动态评估教师的知识转化与实践应变能力。这种方式不仅能超越标准化测试的语境剥离与绩效评估情景简化的不足有效衡量教师将理论知识转化为教学实践的水平更致力于将单一评价工作转化为促进教师持续发展的支持活动推动评价活动从评判转向赋能是践行“评价促发展”理念的创新路径。三、技术机制一GenAI的应用人工智能为教育评估突破现有局限带来可能。经济合作与发展组织强调生成式人工智能在提供即时、个性化反馈方面的巨大潜力可支持持续的形成性评价帮助教师调整教学以满足学生个体需求OECD2023动态内容生成、多模态数据融合与个性化反馈能力可用于开发多元评价方法蒋慧芳等2025监测、挖掘和分析学生项目作业、角色扮演、实际场景模拟等数据更好地了解学生的学习过程和效果张峰等2023。大语言模型的内容生成能力也被广泛应用于自动化题目构建。一些生成式人工智能工具如Eduaide.ai和Quizgecko能依据教学目标与指定内容便捷生成多选题、判断题、简答题等如麻省理工学院利用人工智能自动生成同一概念不同难度的问题来实现个性化评估Circi et al.2023能实现对批判性思维等的测评帮助学生在各学科领域乃至跨学科领域将课程知识与现实情境相结合冷静等2024。大语言模型的快速发展推动题目自动生成向更智能、更灵活的方向迈进且能生成较好的题目质量韩雨婷等2025确保与教学目标更匹配还可创建可扩展、适应性和包容性的评估满足不同学生群体接受公平评估的需求Kuang et al.2024。教学情境模拟是人工智能应用于评估的重要方向。有研究通过在三维课堂环境中嵌入具有自适应交互能力的学生智能体构建面向复杂问题解决的拟真教学情境Lim et al.2025还有研究指出虚拟教师在建立社会临场感方面与真实教师相比仍存在差距Xu et al.2025。面对人工智能应用带来的人才培养新要求联合国教科文组织UNESCO2023强调教育系统需重新设计评价体系更加注重价值观、基础知识和技能、高阶思维及与人工智能协作所需的职业技能同时明确提出教育评估的最终判断和责任必须由人类教师承担并要求对人工智能系统进行严格的伦理审查确保符合教育的基本价值观。二GenAI赋能教师能力场景化评估的路径1. 复杂情境创设与规模化基于生成对抗网络GANs、变分自编码器VAEs等深度学习技术生成式人工智能可通过对抗训练与潜在空间学习实现高质量内容生成与情境建构动态创设贴近真实实践的复杂任务环境且虚拟教师在语音、交流与外观生成质量上亦达到一定水准促进的学习成效已与真实教师相当Xu et al.2025为创建模拟环境、基于情景的任务问题解决环境提供了可能Ilieva et al.2025。2. 评估任务的动态调整通过语义理解与自适应生成生成式人工智能能根据被评估者的经验背景、能力水平和发展阶段动态调整任务难度实现高度个性化的测评。这不仅能提升被评估者的动机与参与度还能使反馈更契合实际需求Arslan et al.2024。3. 多模态数据分析与交互生成式人工智能基于多模态Transformer架构能够统一编码和处理不同模态的数据流包括文本对话、语音、面部表情、互动日志等并通过跨模态注意力机制建立模态间的语义关联Radford et al.2021。在教师能力评估中系统可同步捕获教师的语言表达、非言语行为、认知过程和互动模式形成教师行为的多维证据进而揭示教师在复杂情境中的思维路径与决策逻辑。4. 即时性与发展性反馈生成式人工智能凭借上下文感知与推理生成能力能支持评估过程中的近实时分析与反馈生成。在教师能力评估中系统能从教师的多模态行为数据中提取稳定模式识别关键优势与薄弱环节Futterer et al., 2026生成诊断报告与发展建议。这使评估真正成为教师专业成长的驱动力。四、设计与实施教师能力评估是一项基于证据的、对专业实践智慧进行推断与解释的系统性过程场景的核心在于通过对现实世界的模拟或假设为人与环境的互动提供行动框架。教师能力场景化评估要实现评判向赋能的转向关键是通过构建真实、复杂和互动的教学实践场景引发教师产生真实的认知和行为从而为分析和诊断提供客观依据。结合生成式人工智能技术的特性本研究提出教师能力场景化评估设计与实施的核心原则和系统架构。一核心原则人机协同教师能力评估本质上是一种富含教育理念、实践智慧、伦理关怀与情境判断的专业性工作。研究人员普遍认为必须将人工智能的高效生成、深度分析能力与人类的专业洞察、价值判断相结合构建人机协同、优势互补的评估新范式。因德兰等Indran et al.2024提出人机协同框架应由精心设计的提示词引导生成初步内容然后由专家进行质量评估和必要修正。韩雨婷等2025认为“AI辅助、人类主导”的协作方式不但保留了人工智能的效率优势而且有效融合了专业人员的知识判断特别适合对内容质量要求严格的高利害测验情境。在教师能力场景化评估中人机协同原则的核心实现机制是技术负责规模化情境生成、数据采集与实时分析并在输出端构建“证据追溯机制”人类专家主导教育意图融入、复杂教学智慧的综合研判、评估规则制定及伦理价值的把握最终实现“人类主导→AI执行→人类确认”的协同。在评估设计阶段专家负责定义能力标准、设计核心评估框架人工智能生成多样化场景及测评内容。在此基础上人类再审核评估内容的教育适当性并确认证据链的合理性。在评估实施阶段专家提出标准生成式人工智能依据标准采集数据进行智能化分析识别问题和模式并自动生成包含“情境一行为一指标”映射关系的诊断报告即可追溯的“证据链”。在此基础上专家进行情景化校准、深度解读和价值判断最终形成对教师能力水平的质性评价与个性化发展建议见图2。二系统架构三层协同模型为了实现“从行为表现到能力评判再到发展赋能”的核心目标场景化评估必须完成两个关键环节场景构建场景创设与生成任务与场景解析数据采集与任务分析。稳健、高效地支撑“发展赋能”的转向目标需要构建层次清晰、功能衔接的系统性技术架构。数据层全面、原始地记录教师背景性数据以及评估过程产生的过程性数据和成果性数据并对涉及的多模态数据进行采集、存储与预处理构成能力评估及发展需求推理的原始证据存储构建能力评估所依据的相关标准、典型场景和任务案例以支持不同场景生成方式。生成式人工智能通过多模态理解技术和分析模型可将非结构化数据转化为可分析的语义信息。模式层负责从原始数据中提取证据进而分析、推理与决策将证据与内在的、不可直接测量的能力构念联系起来。依据证据中心设计评估理论模型可分为能力型、任务型和证据型。能力模型定义评估对象任务模型依据评估能力定义激发目标能力行为具体情境的创设要求与规则证据模型设定证据规则和测量模式。生成式人工智能利用强大的语义分析、情感计算、模式识别等能力从复杂、自然的行为数据中提取证据并进行推理为评估情境的“无限供给”和“个性化定制”提供设计蓝图和规范。应用层将抽象的评估设计转化为教师可感知、可交互的具体场景任务与反馈报告是评估发生的“交互界面”。该层包括四个组件动态场景智能生成器、自适应评估引擎、智能反馈与推荐系统和人机协同决策看板。生成式人工智能在统一框架下生成海量个性化情境内容基于教师实时表现动态构建适配的能力诊断路径即时分析行为数据生成诊断报告并推送匹配的学习资源与练习提供发展性指导提炼分析结论、关键片段与证据链辅助人类专家进行高效复核与干预决策。三层模型见图3体现了高内聚、低耦合的工程设计原则共同构成生成式人工智能赋能教师能力场景化评估方法数据层负责多源证据的采集与组织模式层承担能力构念建模与证据推理应用层面向教师呈现具体任务与反馈结果。这一模型为重新审视和重构教师能力评估提供了范式。五、实施路径与关键策略一场景评估的智能生成特拉伊科夫斯基等Trajkovski et al., 2025基于人机协作方式将生成式人工智能辅助的评估分为人工智能自主生成、人工智能与教师的协作创造和人工智能驱动增强三种。本研究将生成式人工智能辅助教师能力评估的场景生成方式分为非结构化指令驱动生成、结构化框架引导生成和动态指令驱动的自适应生成关键要素和人机协同策略见表1。表1 GenAI辅助场景化评估生成的三种方式分析要素非结构化指令驱动生成结构化框架引导生成动态指令驱动的自适应生成概要GenAI根据人类提供的整体性、自然语言形式的提示语指令生成场景和评估内容人类先制定包括场景化评估的关键要素和约束条件形成具体框架再由GenAI生成预先设定结构化指令GenAI根据学习者的个人信息及学习和评估的具体表现进行针对性设计与调整人类职责定义场景需求设定场景依据/标准审核场景和问题的真实性、合理性与教学适配性提炼场景关键要素、任务模块和评价维度并根据需要提供示例、真实案例素材调整场景复杂度提供原始场景与评价维度监控自适应调整过程解释与确认评估结果人工智能职责理解指令语义自动生成情景化试题构建虚拟环境生成多语言/无障碍版本根据框架填充动态细节角色扮演对话生成自动化场景分支根据选择触发不同情景行为数据收集与模式识别动态调节难度或测试路径标记潜在问题生成对比视图标准操作与用户操作设计路径人类发出非结构化指令→人工智能生成场景试题→人类复核人类设计框架→人工智能批量填充内容→人工调整→人工智能再优化人类提供初始化指令与数据→人工智能分析并推荐优化→人工确认→人工智能实施调整技术差异依赖自然语言生成、深度学习算法、知识图谱需要模板解析和语义理解基于数据分析和动态决策机制1. 非结构化指令驱动生成非结构化指令驱动生成指由人类向人工智能提供整体性、自然语言形式的指令从而生成多样化情景试题。此类指令常未对评估目标、任务结构或评价标准进行显式拆分而是以语义描述的方式提出总体要求。人工智能需理解指令意图自主补全场景构建及评估所需要素。为确保证据推理的透明性人类专家需对人工智能生成的场景进行“证据回溯”式审核即审视人工智能自主补全的情境要素是否隐含与预设能力标准相对应的表现机会将人工智能的生成锚定在可解释的证据框架内。该方式运用自然语言生成模型和深度学习算法独立生成评估方案生成效率高、灵活性强适用于评估设计的初步构想或示例性情境建构但生成内容的可控性和一致性相对有限见表2。表2 非结构化指令驱动生成示例指令生成结果DeepSeek生成作为教师培训专家你正在给新教师讲授学习支架的概念和应用。可否请你从布鲁姆认知目标分类的应用、分析、综合、评价层面设计一道情景化测试题以考察他们对支架的理解可以是单选题、判断题或多选题情境王老师在教小学五年级学生写“说服性议论文”时发现学生难以组织论点与论据于是设计了一个“写作思维导图”模板要求学生先填写核心观点再列出三个理由并为每个理由补充一个例子。问题王老师使用的“写作思维导图”模板属于哪种类型学习支架主要对应布鲁姆认知目标分类的哪一层次选项A. 程序性支架——应用层次B. 概念性支架——分析层次C. 策略性支架——综合层次正确选项D. 元认知支架——评价层次在该案例中人工智能可依据清晰的提示工程生成贴合中小学课堂真实教学情境的类型试题以适应不同对象的需求。已有研究表明提示工程作为一种更轻量级的方法无需改变模型参数而是通过设计合适的提示引导模型生成目标内容有助于提升题目自动生成的质量韩雨婷等2025。2. 结构化框架引导生成结构化指令引导生成指人类以结构化的指令形式明确评估的关键要素和生成约束如评估目标、场景要素或评估维度等生成式人工智能不再需要自行推断评估结构而是在既定指令结构的引导下生成具体情境与评估内容。这种结构化但灵活的评估创建方法依赖精心设计的内容结构人工智能根据指令生成特定内容或在预设框架内替换、调整具体要素和细节。这种方法既保留了题目自动生成技术“基于规则的方法”的要领依赖专家知识和认知理论通过框架预定义规则或模板控制生成题目又发挥了生成式人工智能强大的语言理解和生成能力以结构化框架为基础生成针对特定目标的多样化问题并保持测试在构念和要素上一致。这种方法使生成结果更易于对齐教学目标与评价标准适用于场景化评估的系统性设计。例如针对教师“选择和运用评价数据采集工具”的评估评估者可根据拟定的框架形成具体的提示语内容并依据测试对象的学科、所在区域、能力水平等生成评估场景。评估框架的构成与示例见表3。表3 结构化框架引导生成示例构成描述示例评估任务确定场景化评估的输出目标与核心意图生成一套能有效甄别教师在复杂技术环境下是否掌握“选择和运用评价数据采集工具”核心能力的场景化测试题确保题目具有高区分度、高真实度并紧密贴合能力核心特征中的行为表现。评估内容能力描述“选择和运用评价数据采集工具”指教师基于教学目标能够在数字化教学环境中科学地选择、组合与运用多模态数据采集工具的能力。它不仅包括对传统测评与观察工具的合理使用更强调人机协同下评价工具的深度融合。能力表现生成的题目必须涉及以下评估维度1目标界定精准匹配评价目标和内容、数据来源合理、评价流程设计清晰2工具选择恰当根据工具特征和情境判断工具适用性3工具运用规范与灵活告知学生数据采集事项、有序组织学生的数据采集、动态管理数据采集方案、检验数据的质量。评估场景环境预设一个具体到学科、学段、教学内容的教学环境技术环境可以包含多媒体教学环境、智慧教室、学习管理系统、在线学习平台、人工智能评估系统等。行为主体角色以教师为主体同时可自然带入教师的个体属性与环境属性设计符合教师实际需要的情景。教学事件描述教师需要选择、组合和运用评价数据采集工具获取支持的具体情境如问题分析、教学改进、学习成效评估等。触发冲突设计一个关键冲突如数据解读偏差、工具使用不当、学生参与度不均等。输出规范规定评估题目的展现形式请输出测试题包含结构化的场景文本、针对冲突点的决策任务选项和评估标准。3. 动态指令驱动的自适应生成人工智能在快速分析大量数据方面表现出色非常适合创建根据学生表现动态调整的自适应评估Wang et al., 2020。生成式人工智能接收的不仅是预先设定的指令还包括随评估进程不断更新的指令。这些指令可根据学习者的表现、作答路径或反馈动态调整从而引导生成式人工智能生成与个体相匹配的评估情境与任务。例如学习者如果完成建构主义基本观点问题的解答接下来可能会有更难的问题检验其对建构主义的理解或结合某个真实问题对其考察。相反如果学习者表现不佳系统可能会提供较简单的题目以找出薄弱环节。自适应评估由状态跟踪、表现预测、策略决策和内容生成四个核心模块组成。当然动态指令的更新并非人工智能自主推断而是遵循人类专家预设的“任务选择规则”或决策树逻辑。人工智能根据这些透明的、预设的规则实时生成与学习者状态相匹配的情境。这种方式将证据设计的路径牢牢掌握在人类专家设定的规则之内人工智能则用于确保情境的丰富性和适应性。动态指令驱动的自适应生成能够与学习过程深度耦合。它通过即时捕捉和分析教师教学情境的表现数据动态生成个性化的评估任务与反馈从而精准揭示教师在教学设计、课堂应变或学科理解等方面的能力状态和待改进方面。例如系统可根据教师处理课堂提问的方式自动调整后续模拟教学的复杂度引导其深化对“因材施教”的理解。这种高度定制化的评估不仅能避免标准化测试带来的局限而且能发现测评对象的潜力提升其自我效能感最终将评估从静态测量转变为动态、综合的学习过程Algerafi et al., 2023。上述三种方式中生成式人工智能扮演了“情境创设引擎”的角色但其运行始终遵循“人类主导意图与规则人工智能负责情境生成与初析”的协同框架。核心优势在于能够根据预设的评估参数与证据规则生成丰富、个性化、动态演进的模拟情境并同步输出可追溯的“情境—证据”映射关系。这种方式超越统一、标准化的测试能增强测评的真实感和体验感提升评估场景设计的效率和质量将人类专家从繁琐的情境细节构思中解放出来使其聚焦更核心的证据解读、价值判断与发展建议从而支持评估活动实现从“单一评判”走向“赋能发展”的协同目标。二数据的融合分析场景化评估的另一关键是依托系统性的技术流程将情境互动中形成的多源过程数据转化为结构化证据并据此形成可解释的教师专业能力报告。1. 数据采集与预处理系统应自动、无干扰地采集多维度过程性数据包括对话文本、语音语调、表情、决策时间序列、虚拟环境操作路径等。这些数据共同刻画了教师在复杂情境中的认知、行为与情感反应是智能化评估的起点。然而原始数据具有异构、冗余与含噪等特性必须经过系统化的预处理包括数据清洗、时间对齐、语义标注与标准化为后续多模态融合与高阶推理奠定基础。2. 多模态数据融合多模态数据融合是实现对教师复杂能力构念精准推断的关键技术步骤其目标是将异构数据映射到统一的语义空间即让不同模态的数据在数学表征上具有可比性从而捕捉跨模态的互补与协同信息。常用方法有特征融合、决策融合和混合融合任泽裕等2021。通过三种范式的融合应用评估系统能模仿人类专家的专业分析方式实现对教师行为全面、深刻的表征。3. 行为模式识别与推断完成多模态数据的融合与表征后系统从整合后的行为语义中识别有价值的模式并依据预设的理论框架将这些行为语义推断为内在的、潜在的能力特质。该环节遵循证据中心设计的理论先从教师的行为序列中挖掘稳定、有意义的过程性证据基于证据规则与测量模型将证据转化为能力度量进而识别典型行为模式和教师能力水平。4. 人机协同分析系统基于行为模式识别与推断结果关联整合关键证据形成证据链由生成式人工智能依据标准生成结构化诊断要点与结论并在人机协同决策看板中呈现。专家核查证据、开展情境化校准、修正偏差、补充情境解释与价值判断最终形成可解释的教师专业能力诊断报告和改进建议。六、创新实践与案例解析人机协同的评估设计与实施作为教师专业发展的重要创新方向近年来涌现出一系列实践案例。这些实践不仅验证了生成式人工智能在教师能力评估中的技术可行性也明晰了场景化评估的设计思路与实施路径。为呈现前述框架的运作逻辑与实际效果本研究以某高校的技术赋能教师发展工作为例阐释理论框架转化为可操作的评估实践。一动态情景判断测试情境判断测试situational judgment test通过模拟实际工作情境评估个体胜任力被认为在能力测评方面有较高的效度Motowidlo et al.1990是测量个体胜任力的有效工具漆书青等2003但用于教师发展领域存在明显困境有限的静态情境库难以覆盖教学实践的多样和复杂性且保真性弱。某高校的教师数字素养动态情景判断测试系统基于生成式人工智能技术通过动态场景生成与个性化适配机制实现了模式突破人类专家先提出主题框架包括教师数字素养维度的能力描述、评估目标、具体事件、核心冲突以及教学环境与教师的关键属性明确试题生成规则如优先选择与人工智能、智慧学习环境、数据驱动教学相关的高频场景依据教师的学科、学段、角色等采用框架引导生成方式自动生成高度拟真、贴合教学实践的情景与试题依据预设标准实时生成个性化测评反馈并结合教师发展目标推送资源。二模拟对话互动评估基于对话的评估conversation-based assessmentYildirim-Erbasli et al.2021的思路与苏格拉底所倡导的“诘问法”一脉相承是一种深入探究教师内隐知识和实践智慧的质性评价方法。美国西方教育研究实验室主导的“数据素养访谈评估项目”通过将教师置于模拟的、富有挑战性的工作情境中借助对话观察和分析教师在真实教育情境中较真实的数据使用能力和态度李艳等2020。2024年推出的“知心慧语”师生沟通能力实训系统采用生成式人工智能技术通过角色模拟、语义深度解析与多模态证据整合重塑对话评估。第一生成式人工智能基于儿童的不同气质沟通逻辑和语言风格采用框架引导生成的方式创建不同的场景和角色对话使基于对话的测评更具真实性和沉浸感第二利用大语言模型的深度语义分析能力实时解构教师对话中的专业术语运用、问题解决策略、共情表达、决策逻辑等隐性能力指标使能力分析更具专业深度第三详细记录教师对话情景的语言、行为和操作等表现基于对话过程捕捉教师的思维痕迹和决策链再结合语音情感开展的情绪分析识别教师的行为模式为教师能力诊断和提升提供支持。三基于实训环境的技能评估操作模拟测试曾被广泛用于计算机操作技能测试然而应用空间有限第一测评内容有限高成本导致模拟环境有限、敏捷性不足难以匹配工具快速更新速度第二操作路径僵化抑制个性化和创新解法第三聚焦软件或工具操作未关联真实教育场景第四无法捕捉操作背后的决策逻辑。在教师提示语工程测评与实训系统中教师可自主选择不同的大语言模型环境针对复杂的教育实践任务如大单元教学方案设计、个性化作业设计等通过多轮交互包括提示词设计、需求补充、迭代改进、结果优化等完成任务。在此过程中系统自动记录交互过程依据设定的任务类型记录输入的提示语内容将机械界面点击记录转变为操作语义分析实现多元路径的灵活认定并从准确性、一致性、相关性、效率等维度评估用户的提示词设计能力和动态交互能力。目前该系统可结合教师的差异化需求与实践问题生成针对性任务并根据教师操作成效进行动态调整通过自适应生成场景的方式完成基于场景的实训。七、挑战与未来图景本文结合教师能力评估的现实困境和生成式人工智能技术特性提出人机协同的场景化评估设计与实施新思路。生成式人工智能赋能的场景化评估不仅是技术工具的创新更是教师能力评估范式的重构。它使评估从“标准检验”延伸为“情境建构”从“专家中心”过渡到“人机协同”从“能力判定”转向为“成长赋能”。在这一过程中教师得以在高拟真的情境中持续开展实践反思与能力迭代并获得精准、即时、发展性的专业支持。这种评估模式既回应了教育数字化转型的新要求也为破解教师能力评价中长期存在的“学评分离”“情境脱嵌”“反馈滞后”等难题提供了可行路径。尽管生成式人工智能在还原真实场景的有效性方面有待验证但随着多模态大模型、教育知识图谱、情感计算等技术的深度融合其赋能的场景化评估将迎来系统性变革。未来该领域有望在自适应情境生成、多模态场景生成、跨模态证据融合、认知情感协同诊断等关键方向上取得突破实现从“静态辅助”向“动态增强”的根本性演进。[参考文献][1] Algerafi, M. A. M., Zhou, Y., Oubibi, M., Wijaya, T. T. (2023). Unlocking the potential: A comprehensive evaluation of augmented reality and virtual reality in education[J]. Electronics, 12(18): 3953.[2] Arslan, B., Lehman, B., Tenison, C., Sparks, J. R., López, A. A., Gu, L., Zapata-Rivera, D. (2024). Opportunities and challenges of using generative AI to personalize educational assessment[J]. Frontiers in Artificial Intelligence, 7: 1460651.[3] Banerjee, H. L. (2019). Investigating the construct of topical knowledge in second language assessment: A Scenario-Based Assessment Approach[J]. Language Assessment Quarterly, 16(2): 133-160.[4] Circi, R., Hicks, J., Sikali, E. (2023). Automatic item generation: foundations and machine learning-based approaches for assessments[C]//Frontiers in Education. Frontiers Media SA, 8: 858273.[5] Darling-Hammond, L., Jaquith, A., Hamilton, M. (2012). Creating a comprehensive system for evaluating and supporting effective teaching[M]. Stanford, CA: Stanford Center for Opportunity Policy in Education; iv.[6] Futterer, T., Hou, R., Bühler, B., Bozkir, E., Bell, C., Kasneci, E., Gerjets, P., Trautwein, U. (2026). Validating automated assessments of teaching effectiveness using multimodal data[J]. Learning and Instruction, 101: 102264.[7] 顾小清2024.基于场景的测评内涵特征、实践应用与未来展望[J].上海教育830-33.[8] 郭炯邹佳人2025.场景化评价技术赋能新时代教育评价改革的新趋向[J].中国远程教育45171-85.[9] 韩雨婷王文轩刘红云游晓锋2025.题目自动生成的技术革新与现实挑战[J].心理科学进展33101766-1782.[10] Ilieva, G., Yankova, T., Ruseva, M., Kabaivanov, S. (2025). A framework for generative AI-driven assessment in higher education[J]. Information, 16(6): 472.[11] Indran, I. R., Paranthaman, P., Gupta, N., Mustafa, N. (2024). Twelve tips to leverage AI for efficient and effective medical question generation: A guide for educators using ChatGPT[J]. Medical Teacher, 46(8): 1021-1026.[12] 蒋慧芳曾文婕2025.生成式人工智能推动教育评价转型[J].中国教育学刊841-48.[13] Kuang, Y., Tang, Y., Xie, T. (2024). Objectives, methods, and challenges of applying intelligent assessment in education: A systematic review[C]//2024 International Symposium on Educational Technology (ISET). IEEE, 185-190.[14] 冷静卢弘焕代琳2024.生成式人工智能赋能批判性思维测评——基于ChatGPT的应用实验[J].现代远程教育研究366102-111.[15] 李艳刘淑君2020.国外教师数据素养测评研究及启示[J].开放教育研究26137-49.[16] Lim, J., Lee, U., Koh, J., Jeong, Y., Lee, Y., Byun, G., Jung, H., Jang, Y., Lee, S., Moon, J. (2025). Development and implementation of a generative artificial intelligence-enhanced simulation to enhance problem-solving skills for pre-service teachers[J]. Computers Education, 232: 105306.[17] 刘尧2001.发展性教师评价的理论与模式[J].教育理论与实践1228-32.[18] Motowidlo, S. J., Dunnette, M. D., Carter, G. W. (1990). An alternative selection procedure: The low-fidelity simulation[J]. Journal of Applied Psychology, 75(6): 640-647.[19] OECD (2023). OECD Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem. Paris: OECD Publishing; 110.[20] Paulhus, D. L., Vazire, S. (2007). The self-report method[J]. Handbook of Research Methods in Personality Psychology, 1(2007): 226-233.[21] 漆书青, 戴海琦 (2003). 情景判断测验的性质、功能与开发编制 [J]. 心理学探新, (4): 42-46.[22] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I. (2021). Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PmlR, 8748-8763.[23] 任泽裕, 王振超, 柯尊旺, 李哲, 吾守尔·斯拉木 (2021). 多模态数据融合综述 [J]. 计算机工程与应用, 57(18): 49-64.[24] Trajkovski, G., Hayes, H. (2025). The AI-Assisted Assessment Creation Framework[M]//AI-Assisted Assessment in Education; Transforming Assessment and Measuring Learning. Cham: Springer Nature Switzerland, 59-114.[25] UNESCO (2023). Guidance for generative AI in education and research[M]. Paris: UNESCO, 41.[26] Wang, N., Wang, D., Zhang, Y. (2020). Design of an adaptive examination system based on artificial intelligence recognition model[J]. Mechanical Systems and Signal Processing, 142: 106656.[27] Xu, T., Chen, Q., Zhang, Z., Dong, B., Zhang, H., Bai, J., Zhou, Y. (2025). Maximizing effectiveness of AI-generated instructors through human-like behavior and dynamic visual cues in instructional videos; Evidence from an eye-tracking study[J]. The Internet and Higher Education, 67: 101034.[28] Yildirim-Erbasli, S. N., Bulut, O. (2021). Conversation-based assessments: Real-time assessment and feedback[J]. ELearn, 2021(12).[29] 张峰, 陈玮 (2023). ChatGPT 与高等教育: 人工智能如何驱动学习变革 [J]. 重庆理工大学学报(社会科学), 37(5): 26-33.