本文档以一个支持图片理解的智能问答 Agent 为例,评测该 Agent 的图片理解能力。评测过程中会根据用户输入的图片和问题、Agent 输出的图片解析来全方位评测、度量 Agent 的图片理解能力。评测方式是回流 Agent 线上 Trace 数据到评测集,然后对针对评测集发起进行评测实验,根据评测集中记录的 Agent 线上实际输出来进行评测。
[
{
"type": "text",
"text": "You are an assistant"
},
{
"type": "image_url",
"image_url": {
"url": ""
}
}
]
开始评测前,我们需要准备评测集,本教程以 Trace 回流评测集为例演示多模态评测集的准备工作。
扣子罗盘 SDK 支持将 Trace 数据回流至评测集,我们可以将多模态 Agent 线上的真实对话对应的 Trace 数据回流到评测集中,作为评测实验的评测集,用于评估多模态 Agent 的图片理解能力。
操作步骤如下:
将 Trace 数据回流到评测集之后,需要确认评测集内容,并提交一个版本,用于后续的评测实验。
在评测集页面查看已回流的评测集。
提交评测集版本。
扣子罗盘提供了以下预置模板,用于多模态(图片)场景评测,你同样可以基于此模板再修改,或者从零开始自定义构建适用于你自己业务场景的评估器。
|
场景 |
评测重点 |
评估器模板 |
|---|---|---|
|
图片理解 |
Agent 根据对图片的理解,生成的文本内容 |
识图理解 |
|
图片生成 |
Agent 生成的图片 |
生图美学质量 |
|
生图风格一致性 |
||
|
生图指令遵循 |
||
|
生图成像质量 |
||
|
生图文字正确性 |
因为本次评测的目标是『评测该Agent根据用户给的图片、问题进行回答的质量』,因此我们选择『识图理解』模板来创建一个评估器。操作流程如下:
在左侧导航栏,选择评测 > 评估器,然后单击 + 新建评估器。
在新建评估器页面,配置评估器。
核心配置如下:
|
配置 |
说明 |
示例 |
|---|---|---|
|
评估器模板 |
选择『识图理解』模板。 |
|
|
模型 |
为评估器选择一个支持图片理解的模型。你可以在模型列表中通过标签查看模型是否支持图片理解。 |
|
在完成评估器配置后,单击调试,测试一下评估器效果。
在弹出的预览与调试页面,输入一组测试数据,然后单击运行查看评估效果是否符合预期。
以下图中的评估器为例,它对构造的内容评估完全准确。
在调试后,单击创建并提交评估器版本。
准备评测集和评估器之后,即可发起评测实验。基于评测集中记录的 Agent 表现,评测其在图片理解场景的具体效果。
成功创建评测实验之后,实验自动执行。你可以在实验完成后在详情页中查看实验报告。
例如下图的实验报告中,识图理解评估器的评估结果均为 1,表示答案全部准确。