> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

本文档以一个支持图片理解的智能问答 Agent 为例，评测该 Agent 的图片理解能力。评测过程中会根据用户输入的图片和问题、Agent 输出的图片解析来全方位评测、度量 Agent 的图片理解能力。评测方式是回流 Agent 线上 Trace 数据到评测集，然后对针对评测集发起进行评测实验，根据评测集中记录的 Agent 线上实际输出来进行评测。
## 准备工作 {#afce30d5}

* 已搭建一个多模态 Agent，通过视觉理解模型或者多模态插件实现图片理解能力。
* 使用扣子罗盘 SDK 为这个 Agent 上报 Trace 数据。扣子罗盘 SDK使用说明，参见[SDK 概述](/cozeloop/sdk)。关于如何使用多模态上报数据协议，可参考 [MessageList-Image Input](https://platform.openai.com/docs/api-reference/chat/create)。多模态 Trace 示例结构如下：
   ```JSON
   [
       {
           "type": "text",
           "text": "You are an assistant"
       },
       {
           "type": "image_url",
           "image_url": {
               "url": ""
           }
       }
   ]
   ```


## 步骤一：准备评测集 {#54679321}
开始评测前，我们需要准备评测集，本教程以 Trace 回流评测集为例演示多模态评测集的准备工作。
扣子罗盘 SDK 支持将 Trace 数据回流至评测集，我们可以将多模态 Agent 线上的真实对话对应的 Trace 数据回流到评测集中，作为评测实验的评测集，用于评估多模态 Agent 的图片理解能力。
操作步骤如下：

1. 在左侧导航栏，选择**观测 > Trace**，并使用过滤器筛选出多模态 Agent 的 Trace 数据。
   筛选出带有多模态（图片）问题和回复的 Span 节点，通常是 root span 节点。
2. 在页面右上角单击**添加到评测集**。
3. 选择需要回流的 Trace 数据，并再次单击**添加到评测集**。
4. 根据页面提示配置字段映射，依次将用户问题、多模态数据、Agent 回复回流至评测集的对应字段。
   需要注意的是，对于多模态字段（图片），需要为其映射评测集的**多模态**类型字段。关于回流 Trace 到评测集的详细操作步骤、字段映射配置可参考[Trace 数据回流](/cozeloop/save-trace-to-dataset)。
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/3dc5cd41797a4847a473ab4191c26638~tplv-goo7wpa0wc-image.image" width="1836px" height="730px" />   </div>


## 步骤二：提交评测集版本 {#cac8bac5}
将 Trace 数据回流到评测集之后，需要确认评测集内容，并提交一个版本，用于后续的评测实验。

1. 在评测集页面查看已回流的评测集。
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/b4f82b13a86b4c84928a5efb08935654~tplv-goo7wpa0wc-image.image" width="3278px" height="1002px" />   </div>

2. 提交评测集版本。
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/3a45a892cdb04579840b1c891903fdb0~tplv-goo7wpa0wc-image.image" width="3356px" height="980px" />   </div>


## 步骤三：创建评估器 {#d3426fb3}
扣子罗盘提供了以下预置模板，用于多模态（图片）场景评测，你同样可以基于此模板再修改，或者从零开始自定义构建适用于你自己业务场景的评估器。
<!-- @cols-width: 100,305,244 -->
| | | | \
|**场景** |**评测重点** |**评估器模板** |
|---|---|---|
| | | | \
|图片理解 |Agent 根据对图片的理解，生成的文本内容 |识图理解 |
| | | | \
|图片生成 |Agent 生成的图片 |\
| | |生图美学质量 |
|^^|^^| | \
| | |生图风格一致性 |
|^^|^^| | \
| | |生图指令遵循 |
|^^|^^| | \
| | |生图成像质量 |
|^^|^^| | \
| | |生图文字正确性 |

因为本次评测的目标是『评测该Agent根据用户给的图片、问题进行回答的质量』，因此我们选择『识图理解』模板来创建一个评估器。操作流程如下：

1. 在左侧导航栏，选择**评测 > 评估器**，然后单击 **+ 新建评估器。**
2. 在**新建评估器**页面，配置评估器。
   核心配置如下：
   <!-- @cols-width: 102,228,293 -->
   | | | | \
   |**配置** |**说明** |**示例** |
   |---|---|---|
   | | | | \
   |评估器模板 |选择『识图理解』模板。 |![Image=250x153](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f3b48e4c9f1042faaf09c7dd21b1c1d3~tplv-goo7wpa0wc-image.image) |
   | | | | \
   |模型 |为评估器选择一个支持图片理解的模型。你可以在模型列表中通过标签查看模型是否支持图片理解。 |![Image=1177x575](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/9b767e81641548fe82f0612d0c3400b2~tplv-goo7wpa0wc-image.image) |

3. 在完成评估器配置后，单击**调试**，测试一下评估器效果。
   在弹出的**预览与调试**页面，输入一组测试数据，然后单击**运行**查看评估效果是否符合预期。
   以下图中的评估器为例，它对构造的内容评估完全准确。
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/54e6954d5d6c40af86401b8daad1ec78~tplv-goo7wpa0wc-image.image" width="1766px" height="790px" />   </div>

4. 在调试后，单击**创建**并提交评估器版本。

## 步骤四：发起评测实验 {#d6f81060}
准备评测集和评估器之后，即可发起评测实验。基于评测集中记录的 Agent 表现，评测其在图片理解场景的具体效果。

1. 在左侧导航栏，选择**评测 > 实验**，然后单击 **+ 新建实验**。
2. 填写基础信息。
   输入实验名称和描述，然后单击**下一步: 评测集**。
3. 选择评测集。
   选择已创建的评测集，并选择要使用的评测集版本，然后单击**下一步：评测对象**。
   ![Image=444x286](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/9d9adee5b64744e4b1e9c8e4579e7b34~tplv-goo7wpa0wc-image.image)
4. 跳过评测对象。
   因为本次评测的对象是线上回流的评测集，其本身已经带了线上 Agent 的实际回复，因此无需再配置评测对象使其执行进而获得评测对象的实际结果。
   ![Image=392x259](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/09794a95fef442708422fa555854ae53~tplv-goo7wpa0wc-image.image)
5. 配置评估器。
   ![Image=462x246](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/1304955f70fa462baca5d9fbe8a2e34a~tplv-goo7wpa0wc-image.image)
6. 确认实验配置并发起实验。
   ![Image=414x330](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/115f4c2d3c514d98a2d2d41618fff76b~tplv-goo7wpa0wc-image.image)

## 步骤五：查看实验报告 {#45a5f77b}
成功创建评测实验之后，实验自动执行。你可以在实验完成后在详情页中查看实验报告。
例如下图的实验报告中，识图理解评估器的评估结果均为 1，表示答案全部准确。
![Image=3366x1544](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/52e4db0001be486b83f5578f7f3bab9e~tplv-goo7wpa0wc-image.image)
![Image=3318x1834](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/984b79e107d2492eb1468e96c446fd40~tplv-goo7wpa0wc-image.image)

## 场景总结 {#53f28097}

* 本文档基于 Trace 回流评测集进行评测，本质上度量的是 Agent 线上效果，即在线Agent根据用户问题的实际响应，因此也无需在配置实验时，配置评测对象以再获取实际响应，可以直接跳过评测对象环节。
* 基于 Trace 进行多模态（图片）评测的重点在于：
   * 使用扣子罗盘 SDK，按照 [OpenAI MessageList-Image Input](https://platform.openai.com/docs/api-reference/chat/create) 协议上报多模态数据。
   * 在扣子罗盘观测模块，将 Span 数据正确回流到评测集。
      * 正确筛选出对应的 Span 节点
      * 正确地配置字段映射，多模态类型数据必须对应多模态类型数据。
   * 选择合适的评估器和模型进行实验，本示例中我们选择了适合图片理解场景的评估器和模型。
