扣子扣子编程扣子罗盘资源

文档反馈

新功能发布记录

什么是扣子罗盘

体验扣子罗盘

把 OpenClaw 的 Trace 上报到扣子罗盘

提示词管理

评测

观测

应用注册

SDK

实践教程

基于 Trace 自动评测 Agent

通过 Code 评估器评测 Agent

评测多模态（图片） Agent

评测多模态（视频）Agent

评测扣子工作流

评测扣子智能体

轨迹评测

评测多模态（视频）Agent

更新于: 2026-06-24 15:45:09

在本教程中，你将学习如何以提示词为评测对象，手动创建评测集，并使用 LLM 评估器来评测多模态（视频）Agent 的视频输出。

准备工作

已发布用于评测的提示词。详情参阅开发提示词。

操作步骤

步骤一：实现 Trace 数据上报

首先，你需要确保提示词的 Trace 数据可以被上报到扣子罗盘。

说明

对于通过 Cozeloop SDK 拉取或调用的提示词，其 Trace 数据会被自动上报到扣子罗盘。详情参阅 Cozeloop SDK 关于 Prompt 拉取和调用的文档。
以 Go SDK 为例，你可以参考以下文档：

步骤二：创建多模态评测集与评估器

创建评测集

接下来，你需要创建评测集并向评测集添加数据。评测集包括用户的自然语言输入以及作为理想输出的参考视频。参考视频可作为评估器评估 Agent 时的参考标准。

登录扣子罗盘，在左侧导航栏顶部，选择你的工作空间。
在左侧导航栏，选择评测 > 评测集，然后把鼠标移动到 + 新建评测集 按钮上，在下拉菜单中单击 +新建评测集。
在 新建评测集 页面，填写评测集名称和描述。
在配置列区域右侧，选择 理想输出评测集，并创建以下列：

名称

数据类型

必填

input

String

否

actual_video

多模态

否

ref_video

多模态

否
单击创建。你会被跳转到评测集的管理页面。
在评测集的管理页面，选择 评测集 页签，把鼠标移动到右侧的 添加数据，在下拉菜单中选择一种添加方式。在本教程中，你通过 手动添加 的方式添加数据。详情参阅向评测集添加多模态数据。

列

描述

input

用于生成视频的提示词。

actual_video

Agent 实际生成的视频。

ref_video

用于评测的参考视频。
在 评测集 页签，单击右侧的 提交新版本 按钮。在弹出的窗口中设置版本号和版本说明，然后单击提交。

创建评估器

创建 LLM 评估器时，支持在 User Query 中添加多模态变量，并调试多模态评估效果。

步骤三：创建并发起实验

创建实验时，你需要为实验关联评测集、评估器和评测对象。

访问扣子罗盘，在左侧导航栏顶部，选择你的工作空间。
在左侧导航栏，选择评测 > 实验，然后单击 + 新建实验。
在 评测集 页面，选择你在步骤二创建的评测集，并选择要使用的评测集版本，然后单击下一步：评测对象。
在 评测对象 页面，按照下面的参数说明配置评测对象。然后单击下一步：评估器。

参数

说明

类型

设置为 Prompt。

Prompt key

设置为你的 Prompt key。
在 评估器 页面，单击 +添加评估器 为评测实验设置评估器。评估器配置完成后，在页面底部设置最大并发执行条数，然后单击 确认实验配置。
本教程使用名称为 “视频Agent指令遵循评估器” 的自定义评估器，类型为 LLM 评估器。该评估器会根据用户输入的自然语言指令、参考视频和参考音频，对视频 Agent 生成的视频和音频进行指令遵循度评测，并输出评分。
评估器的字段映射为：
- 评估器 input = 评测集 input
- 评估器 actual_video = 评测对象 actual_video
- 评估器 ref_video = 评测对象 ref_video
填写基础信息。输入实验名称和描述，然后检查实验配置，确认无误后，单击发起实验。发起实验后，你可以刷新实验页面，查看评测进度。

步骤四：查看实验结果

实验运行完成后，你可以查看实验结果。

查看数据明细

在 数据明细 页签，你可以查看每条评测集数据的评测结果，包括评测集数据、评测对象输出数据和评估器得分。
你还可以在操作列单击详情，查看每条评测集数据的详情。

查看指标统计

在 指标统计 页签，你可以查看评估器得分的统计数据。

评测多模态（图片） Agent

评测扣子工作流

步骤一：实现 Trace 数据上报

步骤二：创建多模态评测集与评估器

创建评测集

创建评估器

步骤三：创建并发起实验

步骤四：查看实验结果

查看数据明细

查看指标统计