> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

本文演示如何通过 Trace 数据回流的方式对一个行程规划 Agent 的轨迹（Trajectory）进行离线评测。该行程规划 Agent 能够根据用户输入的旅游需求，如目的地、出行时间、预算等，生成合理的旅游行程安排。 
## 背景信息 {#d3a65c3a}
推荐你先阅读 [轨迹评测介绍](/cozeloop/trajectory-evaluation)了解什么是轨迹和轨迹评测。
## 前提条件 {#0bebb483}
在扣子罗盘中，只有**火山智能体**才能被用作轨迹评测的**评测对象**。详情参见  [火山智能体注册](/cozeloop/register_veadk)。
## 操作步骤 {#b1d94c52}
参考以下步骤通过轨迹评测一个行程规划 Agent。
扣子罗盘支持将 Trace 数据手动沉淀到评测集，提升数据质量，便于后续开展评测实验，优化 AI 应用表现。因此，在本教程中，评测集中的轨迹数据是通过 Trace 数据回流的。
你将同时使用 LLM-as-Judge 和轨迹匹配的方式评估 Agent 的轨迹： 

* 一个 LLM 评估器用于实时评估 Agent 的轨迹质量。LLM 评估器会评估 Agent 在评测实验时实时产生的轨迹数据。
* 一个代码评估器用于评估 Agent 调用的工具是否符合预期。代码评估器会使用从 Trace 回流的轨迹数据作为参考。

### 步骤一：实现 Trace 数据上报 {#1e9b0148}
首先，你需要确保 Agent 的 Trace 数据可以被上报到扣子罗盘。详情参阅 [数据上报概述](/cozeloop/trace_integrate) 和 [VeADK](/cozeloop/veadk_trace_report)。
### 步骤二：创建评测集 {#6d13cda6}
接下来，你需要创建评测集并向评测集添加数据。评测集包括用户输入、Agent 的理想输出轨迹数据和 Agent 必须调用的工具。 在本教程中，你从指定的 Trace 数据中把轨迹数据回流到评测集中的理想输出轨迹数据列。

1. 登录 [扣子罗盘](https://loop.coze.cn)，在左侧导航栏顶部，选择你的工作空间。
2. 在左侧导航栏，选择**评测 > 评测集**，然后把鼠标移动到 **+ 新建评测集** 按钮上，在下拉菜单中单击 +**新建评测集**。
3. 在 **新建评测集** 页面，填写评测集名称和描述。
4. 在配置列区域右侧，选择 **轨迹评测集**，并创建三个列：
   <!-- @cols-width: 177,100,100 -->
   | | | | \
   |**名称** |**数据类型** |**必填** |
   |---|---|---|
   | | | | \
   |input |String |否 |
   | | | | \
   |groundtruth_trajectory |轨迹 |否 |
   | | | | \
   |required_tool |String |否 |

   ![Image=2232x3508](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/170aa1da515f45efbd90b0b372a49dff~tplv-goo7wpa0wc-image.image)
5. 单击 **创建**。你会被跳转到评测集的管理页面。
   ![Image=2230x1281](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/8b0a8676f5d1417bb2bf7894c1fbb9b0~tplv-goo7wpa0wc-image.image)

### 步骤三：把轨迹数据回流到评测集 {#3cb09965}
接下来，你从指定的 Trace 数据中把轨迹数据回流到评测集中的理想输出轨迹数据列。
:::tip 说明
本教程不涉及轨迹数据的二次处理。但是，在一些复杂场景下，你可能需要对回流至评测集的轨迹数据进行二次处理（例如筛选或分类）。对数据进行二次处理时，你需要先将初步回流的轨迹数据导出为本地文件，完成二次处理后，再将处理后的文件重新导入评测集。详情参见 [导入和导出评测集](/cozeloop/create-dataset#12833199)。
:::

1. 登录 [扣子罗盘](https://loop.coze.cn)，在左侧导航栏顶部，选择你的工作空间。
2. 在左侧导航栏，选择 **应用** **>** **应用注册**。
3. 在 **Trace** 页面，单击右侧的 **添加到评测集**。
   ![Image=3328x1773](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/3808708a2c18468888061e49b9dfcfe6~tplv-goo7wpa0wc-image.image)
4. 选择一条或多条 Trace，然后单击右上角的 **添加到评测集** 按钮。
   ![Image=3339x1743](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f495af5077a7408dbb55d127ea0e376e~tplv-goo7wpa0wc-image.image)
5. 在 **添加到评测集** 页面，配置以下参数：
   <!-- @cols-width: 135,538 -->
   | | | \
   |参数 |说明 |
   |---|---|
   | | | \
   |目标评测集 |选择 **已有评测集**。 |
   | | | \
   |目标评测集名称 |选择你在步骤二创建的评测集。 |
   | | | \
   |导入方式 |因为你创建的评测集数据为空，因此选择 **追加数据** 或 **全量覆盖** 均可。 |\
   | |:::notice 注意 |\
   | |如果评测集中已有数据且你需要保留这些数据，选择 **追加数据**。 |\
   | |::: |
   | | | \
   |字段映射 |完成以下字段映射： |\
   | | |\
   | |* 把 Trace 中的 **Input** 字段映射到评测集中已有的 **input** 列。 |\
   | |* 把 Trace 中的 **Trajectory** 字段映射到评测集中已有的 **trajectory** 列。 |

   ![Image=2732x1928](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/d50cd8078d1248478740c0b6da850fc9~tplv-goo7wpa0wc-image.image)
6. 单击 **校验并预览** 按钮预览导入后评测集的数据内容。校验无误后，单击 **关闭** 回到 **添加到评测集** 页面。
   ![Image=2714x1916](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/9ba3190226834d95afbe4655b733e4e0~tplv-goo7wpa0wc-image.image)
7. 在 **添加到评测集** 页面，单击 **开始导入**。导入完成后，你会被跳转回 Trace 页面。然后，单击右上角提示信息中的 **查看评测集** 按钮回到评测集页面。
   ![Image=3778x1779](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/a005d99e4fd24f93b56cf5f35dded0ef~tplv-goo7wpa0wc-image.image)
8. 在 **评测集** 页签，单击每条评测数据 **操作** 列的 **编辑** 按钮，添加 **required_tool** 数据。
   ![Image=3798x1881](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/7a9934b77e334542933289fae7afe546~tplv-goo7wpa0wc-image.image)
9. 在 **评测集** 页签，单击右侧的 **提交新版本** 按钮。在弹出的窗口中设置版本号和版本说明，然后单击 **提交**。
   ![Image=3792x1904](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/26dbf01a4895443bbdc1f7e37b5443a4~tplv-goo7wpa0wc-image.image)

### 步骤四：创建并发起实验 {#ee7b52fa}
创建实验时，你需要为实验关联评测集、评估器和评测对象。

1. 访问 [扣子罗盘](https://loop.coze.cn)，在左侧导航栏顶部，选择你的工作空间。
2. 在左侧导航栏，选择**评测 > 实验**，然后单击 **+ 新建实验**。
3. 填写基础信息。输入实验名称和描述，然后单击 **下一步: 评测集**。
   ![Image=2916x1491](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f72b5538e25f46a5aa5955dd04031b84~tplv-goo7wpa0wc-image.image)
4. 在 **评测集** 页面，选择你在步骤二创建的评测集，并选择要使用的评测集版本，然后单击**下一步：评测对象**。
   ![Image=2902x1484](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/3e9340cd3e42431fa639b4aa0d774bd1~tplv-goo7wpa0wc-image.image)
5. 在 **评测对象** 页面，按照下面的参数说明配置评测对象。然后单击**下一步：评估器**。
   <!-- @cols-width: 100,427 -->
   | | | \
   |参数 |说明 |
   |---|---|
   | | | \
   |类型 |选择 **火山智能体**。 |
   | | | \
   |应用 |选择你的行程规划 Agent。 |
   | | | \
   |字段映射 |把评测对象的 **user_input** 映射到评测集的 **input** |

   ![Image=2920x1463](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/0b439672013f49d4b9f69b6d4e7df1b7~tplv-goo7wpa0wc-image.image)
6. 在 **评估器** 页面，单击 **+添加评估器** 为评测实验设置评估器。评估器配置完成后，单击**确认实验配置**。 
   本文使用以下评估器：
   * 一个预置评估器，类型为 LLM 评估器，用于评估 Agent 的轨迹质量。字段映射为：**评估器 messages** = **评测对象 trajectory**。这里的 **评测对象 Trajectory** 就是行程规划 Agent 的实时轨迹。
   * 一个自建评估器，类型为代码评估器，用于评估 Agent 调用的工具是否与评测集的 **groundtruth_trajectory** 字段中的轨迹数据中的工具相同。
   :::notice 注意
   一般情况下，字段映射的参数类型必须完全相同。但是，如果评估器中用于接收轨迹数据的参数为 String 类型，你也可以将包含轨迹数据的字段映射到该参数。
   :::
   ![Image=3308x1872](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/9164d545e18a4291a7068675c9140173~tplv-goo7wpa0wc-image.image)
7. 在页面底部，设置**最大并发执行条数**。
   ![Image=2862x1901](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/e714a89eeee84f0e98df9ad87107132d~tplv-goo7wpa0wc-image.image)
8. 检查实验配置，确认无误后，单击**发起实验**。发起实验后，你可以刷新实验页面，查看评测进度。

### 步骤五：查看实验结果 {#0a8221dd}
实验运行完成后，你可以查看实验结果。
#### 查看数据明细 {#1d7e5fc1}
在 **数据明细** 页签，你可以查看每条评测集数据的评测结果，包括评测集数据、评测对象输出数据和评估器得分。你还可以在 **操作** 列单击 **详情**，查看每条评测集数据的详情。
![Image=3770x1391](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/ee8fe43c86d8488ba1e165d851dbbab4~tplv-goo7wpa0wc-image.image)
其中每列数据的说明如下：

* **ID**：代表数据项的 ID。
* **input**、**trajectory** **轨迹** 和 **required_tool** 是评测集的列名。
* **actual_output**：代表评测对象（即行程规划 Agent）的实际输出。你可以单击 **actual_output** 右侧的 **查看实际输出的 Trace** 图标 查看评测对象实际输出的 Trace 数据。
   ![Image=3062x1754](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/a0341c5b563d42ed80baa11d603a0fed~tplv-goo7wpa0wc-image.image)
* **trajectory** **运行轨迹**：代表评测对象的轨迹数据。你可以单击 **trajectory** **运行轨迹** 右侧的 **轨迹可视化** 图标查看评测对象的轨迹可视化数据。
   ![Image=3786x1923](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/300881c2b8df4547b8dadd3a78986155~tplv-goo7wpa0wc-image.image)
* **Agent 轨迹质量** 和 **轨迹中是否调用了符合预期的工具** 这两列展示了对应名称的评估器的得分和原因。每个评估器的得分会显示在各自的列中。将鼠标悬停在得分上可以看到得分和原因。
   ![Image=3350x1419](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/e511c695cbe345b5b3538e861383b086~tplv-goo7wpa0wc-image.image)
   单击得分右侧的 **查看评估器 Trace** 图标，即可查看评估器的 Trace。
   ![Image=3074x1106](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/5b33f2aa78e841e094be01bccf0ad985~tplv-goo7wpa0wc-image.image)
* **Total Latency(ms)**：评测对象从请求到完整响应的总耗时 (ms)。
* **Input Tokens**：评测对象执行过程中模型调用输入 Tokens 总消耗量。
* **Output Tokens**：评测对象执行过程中模型调用输出 Tokens 总消耗量。
* **Total Tokens**：评测对象执行过程中模型调用的总 Tokens 消耗量。

你可以在 **操作** 列单击 **详情**，查看每个评测集数据项对应的详细分析数据。 
![Image=3790x1921](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/c4f9e96facdb437da7f122e7a1dbdb94~tplv-goo7wpa0wc-image.image)
#### 查看指标统计 {#2c77a088}
在 **指标统计** 页签，你可以查看评估器得分的统计数据。
![Image=3778x1902](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f6f045ab83b748ff9a02096a44f17a3c~tplv-goo7wpa0wc-image.image)

