本文演示如何通过 Trace 数据回流的方式对一个行程规划 Agent 的轨迹(Trajectory)进行离线评测。该行程规划 Agent 能够根据用户输入的旅游需求,如目的地、出行时间、预算等,生成合理的旅游行程安排。
推荐你先阅读 轨迹评测介绍了解什么是轨迹和轨迹评测。
在扣子罗盘中,只有火山智能体才能被用作轨迹评测的评测对象。详情参见 火山智能体注册。
参考以下步骤通过轨迹评测一个行程规划 Agent。
扣子罗盘支持将 Trace 数据手动沉淀到评测集,提升数据质量,便于后续开展评测实验,优化 AI 应用表现。因此,在本教程中,评测集中的轨迹数据是通过 Trace 数据回流的。
你将同时使用 LLM-as-Judge 和轨迹匹配的方式评估 Agent 的轨迹:
首先,你需要确保 Agent 的 Trace 数据可以被上报到扣子罗盘。详情参阅 数据上报概述 和 VeADK。
接下来,你需要创建评测集并向评测集添加数据。评测集包括用户输入、Agent 的理想输出轨迹数据和 Agent 必须调用的工具。 在本教程中,你从指定的 Trace 数据中把轨迹数据回流到评测集中的理想输出轨迹数据列。
登录 扣子罗盘,在左侧导航栏顶部,选择你的工作空间。
在左侧导航栏,选择评测 > 评测集,然后把鼠标移动到 + 新建评测集 按钮上,在下拉菜单中单击 +新建评测集。
在 新建评测集 页面,填写评测集名称和描述。
在配置列区域右侧,选择 轨迹评测集,并创建三个列:
|
名称 |
数据类型 |
必填 |
|---|---|---|
|
input |
String |
否 |
|
groundtruth_trajectory |
轨迹 |
否 |
|
required_tool |
String |
否 |
单击 创建。你会被跳转到评测集的管理页面。
接下来,你从指定的 Trace 数据中把轨迹数据回流到评测集中的理想输出轨迹数据列。
说明
本教程不涉及轨迹数据的二次处理。但是,在一些复杂场景下,你可能需要对回流至评测集的轨迹数据进行二次处理(例如筛选或分类)。对数据进行二次处理时,你需要先将初步回流的轨迹数据导出为本地文件,完成二次处理后,再将处理后的文件重新导入评测集。详情参见 导入和导出评测集。
登录 扣子罗盘,在左侧导航栏顶部,选择你的工作空间。
在左侧导航栏,选择 应用 > 应用注册。
在 Trace 页面,单击右侧的 添加到评测集。
选择一条或多条 Trace,然后单击右上角的 添加到评测集 按钮。
在 添加到评测集 页面,配置以下参数:
|
参数 |
说明 |
|---|---|
|
目标评测集 |
选择 已有评测集。 |
|
目标评测集名称 |
选择你在步骤二创建的评测集。 |
|
导入方式 |
因为你创建的评测集数据为空,因此选择 追加数据 或 全量覆盖 均可。 注意 如果评测集中已有数据且你需要保留这些数据,选择 追加数据。 |
|
字段映射 |
完成以下字段映射:
|
单击 校验并预览 按钮预览导入后评测集的数据内容。校验无误后,单击 关闭 回到 添加到评测集 页面。
在 添加到评测集 页面,单击 开始导入。导入完成后,你会被跳转回 Trace 页面。然后,单击右上角提示信息中的 查看评测集 按钮回到评测集页面。
在 评测集 页签,单击每条评测数据 操作 列的 编辑 按钮,添加 required_tool 数据。
在 评测集 页签,单击右侧的 提交新版本 按钮。在弹出的窗口中设置版本号和版本说明,然后单击 提交。
创建实验时,你需要为实验关联评测集、评估器和评测对象。
访问 扣子罗盘,在左侧导航栏顶部,选择你的工作空间。
在左侧导航栏,选择评测 > 实验,然后单击 + 新建实验。
填写基础信息。输入实验名称和描述,然后单击 下一步: 评测集。
在 评测集 页面,选择你在步骤二创建的评测集,并选择要使用的评测集版本,然后单击下一步:评测对象。
在 评测对象 页面,按照下面的参数说明配置评测对象。然后单击下一步:评估器。
|
参数 |
说明 |
|---|---|
|
类型 |
选择 火山智能体。 |
|
应用 |
选择你的行程规划 Agent。 |
|
字段映射 |
把评测对象的 user_input 映射到评测集的 input |
在 评估器 页面,单击 +添加评估器 为评测实验设置评估器。评估器配置完成后,单击确认实验配置。
本文使用以下评估器:
注意
一般情况下,字段映射的参数类型必须完全相同。但是,如果评估器中用于接收轨迹数据的参数为 String 类型,你也可以将包含轨迹数据的字段映射到该参数。
在页面底部,设置最大并发执行条数。
检查实验配置,确认无误后,单击发起实验。发起实验后,你可以刷新实验页面,查看评测进度。
实验运行完成后,你可以查看实验结果。
在 数据明细 页签,你可以查看每条评测集数据的评测结果,包括评测集数据、评测对象输出数据和评估器得分。你还可以在 操作 列单击 详情,查看每条评测集数据的详情。
其中每列数据的说明如下:
你可以在 操作 列单击 详情,查看每个评测集数据项对应的详细分析数据。
在 指标统计 页签,你可以查看评估器得分的统计数据。