在本教程中,你将学习如何以提示词为评测对象,手动创建评测集,并使用 LLM 评估器来评测多模态(视频)Agent 的视频输出。
已发布用于评测的提示词。详情参阅 开发提示词。
首先,你需要确保提示词的 Trace 数据可以被上报到扣子罗盘。
说明
对于通过 Cozeloop SDK 拉取或调用的提示词,其 Trace 数据会被自动上报到扣子罗盘。详情参阅 Cozeloop SDK 关于 Prompt 拉取和调用的文档。
以 Go SDK 为例,你可以参考以下文档:
接下来,你需要创建评测集并向评测集添加数据。评测集包括用户的自然语言输入以及作为理想输出的参考视频。参考视频可作为评估器评估 Agent 时的参考标准。
登录扣子罗盘,在左侧导航栏顶部,选择你的工作空间。
在左侧导航栏,选择评测 > 评测集,然后把鼠标移动到 + 新建评测集 按钮上,在下拉菜单中单击 +新建评测集。
在 新建评测集 页面,填写评测集名称和描述。
在配置列区域右侧,选择 理想输出评测集,并创建以下列:
|
名称 |
数据类型 |
必填 |
|---|---|---|
|
input |
String |
否 |
|
actual_video |
多模态 |
否 |
|
ref_video |
多模态 |
否 |
单击 创建。你会被跳转到评测集的管理页面。
在评测集的管理页面,选择 评测集 页签,把鼠标移动到右侧的 添加数据,在下拉菜单中选择一种添加方式。在本教程中,你通过 手动添加 的方式添加数据。 详情参阅 向评测集添加多模态数据。
|
列 |
描述 |
|---|---|
|
input |
用于生成视频的提示词。 |
|
actual_video |
Agent 实际生成的视频。 |
|
ref_video |
用于评测的参考视频。 |
在 评测集 页签,单击右侧的 提交新版本 按钮。在弹出的窗口中设置版本号和版本说明,然后单击 提交。
创建 LLM 评估器时,支持在 User Query 中添加多模态变量,并调试多模态评估效果。
创建实验时,你需要为实验关联评测集、评估器和评测对象。
访问扣子罗盘,在左侧导航栏顶部,选择你的工作空间。
在左侧导航栏,选择评测 > 实验,然后单击 + 新建实验。
在 评测集 页面,选择你在步骤二创建的评测集,并选择要使用的评测集版本,然后单击下一步:评测对象。
在 评测对象 页面,按照下面的参数说明配置评测对象。然后单击下一步:评估器。
|
参数 |
说明 |
|---|---|
|
类型 |
设置为 Prompt。 |
|
Prompt key |
设置为你的 Prompt key。 |
在 评估器 页面,单击 +添加评估器 为评测实验设置评估器。评估器配置完成后,在页面底部设置最大并发执行条数,然后单击 确认实验配置。
本教程使用名称为 “视频Agent指令遵循评估器” 的自定义评估器,类型为 LLM 评估器。该评估器会根据用户输入的自然语言指令、参考视频和参考音频,对视频 Agent 生成的视频和音频进行指令遵循度评测,并输出评分。
评估器的字段映射为:
填写基础信息。输入实验名称和描述,然后检查实验配置,确认无误后,单击发起实验。发起实验后,你可以刷新实验页面,查看评测进度。
实验运行完成后,你可以查看实验结果。
在 数据明细 页签,你可以查看每条评测集数据的评测结果,包括评测集数据、评测对象输出数据和评估器得分。
你还可以在 操作 列单击 详情,查看每条评测集数据的详情。
在 指标统计 页签,你可以查看评估器得分的统计数据。