助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

实时评测行程规划 Agent 的轨迹

更新于: 2026-06-24 15:45:09

本文演示如何对一个行程规划 Agent 的轨迹(Trajectory)进行实时离线评测。该行程规划 Agent 能够根据用户输入的旅游需求,如目的地、出行时间、预算等,生成合理的旅游行程安排。

背景信息

推荐你先阅读 轨迹评测介绍了解什么是轨迹和轨迹评测。

前提条件

在扣子罗盘中,只有火山智能体才能被用作轨迹评测的评测对象。详情参见 火山智能体注册

操作步骤

参考以下步骤评测一个行程规划 Agent 的轨迹。
你将使用 LLM-as-Judge 方法评估 Agent 的轨迹,在实验中添加两个 LLM 评估器,分别用于评估 Agent 实时轨迹的工具参数填充正确性和工具利用率

步骤一:实现 Trace 数据上报

首先,你需要确保 Agent 的 Trace 数据可以被上报到扣子罗盘。详情参阅 数据上报概述VeADK

步骤二:创建评测集

注意

评测集中不需要有轨迹数据,但评测集的场景必须是 轨迹评测集

接下来,你需要创建评测集并向评测集添加数据。评测集包括用户输入。

  1. 登录 扣子罗盘,在左侧导航栏顶部,选择你的工作空间。

  2. 在左侧导航栏,选择评测 > 评测集,然后把鼠标移动到 + 新建评测集 按钮上,在下拉菜单中单击 +新建评测集

  3. 新建评测集 页面,填写评测集名称和描述。

  4. 在配置列区域右侧,选择 轨迹评测集,并创建一个列:

    名称

    数据类型

    必填

    input

    String

    Image

  5. 单击 创建。你会被跳转到评测集的管理页面。

步骤三:向评测集添加评测数据

  1. 在评测集的管理页面,选择 评测集 页签,把鼠标移动到右侧的 添加数据,在下拉菜单中选择一种添加方式。在本教程中,你通过 手动添加 的方式添加以下数据:

    元旦去哈尔滨旅行,如何规划5天4晚的行程,既能兼顾冰雪大世界、中央大街等热门景点,又能体验东北特色美食?

    暑假去敦煌旅行5天,计划游览莫高窟、鸣沙山月牙泉,还想体验玉门关、雅丹魔鬼城的戈壁风光,考虑到当地气候和交通,行程该怎么调整更合理?

    重阳节带父母去北京旅行6天,想参观故宫、天坛等适合长辈的文化景点,还想安排颐和园的休闲漫步,如何规划节奏舒缓的行程?

    端午小长假去重庆旅行4天,既要打卡洪崖洞、解放碑的夜景,又想挑战长江索道和李子坝轻轨站,还想抽空去磁器口古镇逛吃,行程怎么安排不绕路?

    寒假去三亚旅行5天,想避开人挤人的热门海滩,同时体验蜈支洲岛的水上项目和南山文化旅游区的祈福活动,行程如何设计更舒适?

    清明假期去杭州旅行3天,除了西湖、灵隐寺这些必去景点,还想加1天西溪国家湿地公园的徒步,该怎么规划每日行程才不赶?

    国庆去大理旅行7天,计划环洱海、登苍山,还想留出时间去沙溪古镇感受小众静谧,如何平衡热门景点与小众目的地的行程?

    中秋小长假去苏州旅行4天,想深度体验园林文化(拙政园、留园等),还想夜游平江路、品尝苏帮菜,行程顺序该怎么安排更顺路?

    暑假带孩子去青岛旅行6天,既要满足孩子玩海的需求(如石老人海水浴场),又想参观栈桥、八大关等经典景点,如何规划亲子友好型行程?

    五一假期去成都玩3天,想打卡宽窄巷子、大熊猫繁育研究基地,还想安排1天周边游(比如都江堰或青城山),行程该怎么合理分配?

    Image

  2. 评测集 页签,单击右侧的 提交新版本 按钮。在弹出的窗口中设置版本号和版本说明,然后单击 提交
    Image

步骤四:创建并发起实验

创建实验时,你需要为实验关联评测集、评估器和评测对象。

  1. 访问 扣子罗盘,在左侧导航栏顶部,选择你的工作空间。

  2. 在左侧导航栏,选择评测 > 实验,然后单击 + 新建实验

  3. 填写基础信息。输入实验名称和描述,然后单击 下一步: 评测集
    Image

  4. 评测集 页面,选择你在步骤二创建的评测集,并选择要使用的评测集版本,然后单击下一步:评测对象
    Image

  5. 评测对象 页面,按照下面的参数说明配置评测对象。然后单击下一步:评估器

    参数

    说明

    类型

    选择 火山智能体

    应用

    选择你的行程规划 Agent。

    字段映射

    把评测对象的 user_input 映射到评测集的 input

    Image

  6. 评估器 页面,单击 +添加评估器 为评测实验设置评估器。评估器配置完成后,单击确认实验配置
    本文使用以下评估器:

    • 名称为 “轨迹-工具参数填充正确性” 的预置评估器,类型为 LLM 评估器,字段映射为:评估器 Trajectory = 评测对象 Trajectory
    • 名称为 “轨迹-工具利用率” 的预置评估器,类型为 LLM 评估器。字段映射为:评估器 Trajectory = 评测对象 Trajectory

    注意

    • 这里的 评测对象 Trajectory 就是行程规划 Agent 的实时轨迹。
    • 一般情况下,字段映射的参数类型必须完全相同。但是,如果评估器中用于接收轨迹数据的参数为 String 类型,你也可以将包含轨迹数据的字段映射到该参数。

    Image

  7. 在页面底部,设置最大并发执行条数
    Image

  8. 检查实验配置,确认无误后,单击发起实验。发起实验后,你可以刷新实验页面,查看评测进度。

步骤五:查看实验结果

实验运行完成后,你可以查看实验结果。

查看数据明细

数据明细 页签,你可以查看每条评测集数据的评测结果,包括评测集数据、评测对象输出数据和评估器得分。你还可以在 操作 列单击 详情,查看每条评测集数据的详情。
Image
其中每列数据的说明如下:

  • ID:代表数据项的 ID。
  • input 是评测集的列名。
  • actual_output:代表评测对象(即行程规划 Agent)的实际输出。你可以单击 actual_output 右侧的 查看实际输出的 Trace 图标 查看评测对象实际输出的 Trace 数据。
    Image
  • trajectory 运行轨迹:代表评测对象的轨迹数据。你可以单击 trajectory 运行轨迹 右侧的 轨迹可视化 图标查看评测对象的轨迹可视化数据。
    Image
  • 轨迹-工具参数填充正确性轨迹-工具利用率 这两列展示了对应名称的评估器的得分和原因。每个评估器的得分会显示在各自的列中。将鼠标悬停在得分上可以看到得分和原因。
    Image
    单击得分右侧的 查看评估器 Trace 图标,即可查看评估器的 Trace。
    Image
  • Total Latency(ms):评测对象从请求到完整响应的总耗时 (ms)。
  • Input Tokens:评测对象执行过程中模型调用输入 Tokens 总消耗量。
  • Output Tokens:评测对象执行过程中模型调用输出 Tokens 总消耗量。
  • Total Tokens:评测对象执行过程中模型调用的总 Tokens 消耗量。

你可以在 操作 列单击 详情,查看每个评测集数据项对应的详细分析数据。
Image

查看指标统计

指标统计 页签,你可以查看评估器得分的统计数据。
Image