助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

评测多模态(视频)Agent

更新于: 2026-06-24 15:45:09

在本教程中,你将学习如何以提示词为评测对象,手动创建评测集,并使用 LLM 评估器来评测多模态(视频)Agent 的视频输出。

准备工作

已发布用于评测的提示词。详情参阅 开发提示词

操作步骤

步骤一:实现 Trace 数据上报

首先,你需要确保提示词的 Trace 数据可以被上报到扣子罗盘。

说明

对于通过 Cozeloop SDK 拉取或调用的提示词,其 Trace 数据会被自动上报到扣子罗盘。详情参阅 Cozeloop SDK 关于 Prompt 拉取和调用的文档。
以 Go SDK 为例,你可以参考以下文档:

步骤二:创建多模态评测集与评估器

创建评测集

接下来,你需要创建评测集并向评测集添加数据。评测集包括用户的自然语言输入以及作为理想输出的参考视频。参考视频可作为评估器评估 Agent 时的参考标准。

  1. 登录扣子罗盘,在左侧导航栏顶部,选择你的工作空间。

  2. 在左侧导航栏,选择评测 > 评测集,然后把鼠标移动到 + 新建评测集 按钮上,在下拉菜单中单击 +新建评测集

  3. 新建评测集 页面,填写评测集名称和描述。

  4. 在配置列区域右侧,选择 理想输出评测集,并创建以下列:

    名称

    数据类型

    必填

    input

    String

    actual_video

    多模态

    ref_video

    多模态

  5. 单击 创建。你会被跳转到评测集的管理页面。

  6. 在评测集的管理页面,选择 评测集 页签,把鼠标移动到右侧的 添加数据,在下拉菜单中选择一种添加方式。在本教程中,你通过 手动添加 的方式添加数据。 详情参阅 向评测集添加多模态数据

    描述

    input

    用于生成视频的提示词。

    actual_video

    Agent 实际生成的视频。

    ref_video

    用于评测的参考视频。

    Image

  7. 评测集 页签,单击右侧的 提交新版本 按钮。在弹出的窗口中设置版本号和版本说明,然后单击 提交

创建评估器

创建 LLM 评估器时,支持在 User Query 中添加多模态变量,并调试多模态评估效果。
Image

步骤三:创建并发起实验

创建实验时,你需要为实验关联评测集、评估器和评测对象。

  1. 访问扣子罗盘,在左侧导航栏顶部,选择你的工作空间。

  2. 在左侧导航栏,选择评测 > 实验,然后单击 + 新建实验

  3. 评测集 页面,选择你在步骤二创建的评测集,并选择要使用的评测集版本,然后单击下一步:评测对象

  4. 评测对象 页面,按照下面的参数说明配置评测对象。然后单击下一步:评估器

    参数

    说明

    类型

    设置为 Prompt

    Prompt key

    设置为你的 Prompt key。

    Image

  5. 评估器 页面,单击 +添加评估器 为评测实验设置评估器。评估器配置完成后,在页面底部设置最大并发执行条数,然后单击 确认实验配置
    本教程使用名称为 “视频Agent指令遵循评估器” 的自定义评估器,类型为 LLM 评估器。该评估器会根据用户输入的自然语言指令、参考视频和参考音频,对视频 Agent 生成的视频和音频进行指令遵循度评测,并输出评分。
    评估器的字段映射为:

    • 评估器 input = 评测集 input
    • 评估器 actual_video = 评测对象 actual_video
    • 评估器 ref_video = 评测对象 ref_video
  6. 填写基础信息。输入实验名称和描述,然后检查实验配置,确认无误后,单击发起实验。发起实验后,你可以刷新实验页面,查看评测进度。

步骤四:查看实验结果

实验运行完成后,你可以查看实验结果。

查看数据明细

数据明细 页签,你可以查看每条评测集数据的评测结果,包括评测集数据、评测对象输出数据和评估器得分。
你还可以在 操作 列单击 详情,查看每条评测集数据的详情。

查看指标统计

指标统计 页签,你可以查看评估器得分的统计数据。