元旦去哈尔滨旅行，如何规划5天4晚的行程，既能兼顾冰雪大世界、中央大街等热门景点，又能体验东北特色美食？
暑假去敦煌旅行5天，计划游览莫高窟、鸣沙山月牙泉，还想体验玉门关、雅丹魔鬼城的戈壁风光，考虑到当地气候和交通，行程该怎么调整更合理？
重阳节带父母去北京旅行6天，想参观故宫、天坛等适合长辈的文化景点，还想安排颐和园的休闲漫步，如何规划节奏舒缓的行程？
端午小长假去重庆旅行4天，既要打卡洪崖洞、解放碑的夜景，又想挑战长江索道和李子坝轻轨站，还想抽空去磁器口古镇逛吃，行程怎么安排不绕路？
寒假去三亚旅行5天，想避开人挤人的热门海滩，同时体验蜈支洲岛的水上项目和南山文化旅游区的祈福活动，行程如何设计更舒适？
清明假期去杭州旅行3天，除了西湖、灵隐寺这些必去景点，还想加1天西溪国家湿地公园的徒步，该怎么规划每日行程才不赶？
国庆去大理旅行7天，计划环洱海、登苍山，还想留出时间去沙溪古镇感受小众静谧，如何平衡热门景点与小众目的地的行程？
中秋小长假去苏州旅行4天，想深度体验园林文化（拙政园、留园等），还想夜游平江路、品尝苏帮菜，行程顺序该怎么安排更顺路？
暑假带孩子去青岛旅行6天，既要满足孩子玩海的需求（如石老人海水浴场），又想参观栈桥、八大关等经典景点，如何规划亲子友好型行程？
五一假期去成都玩3天，想打卡宽窄巷子、大熊猫繁育研究基地，还想安排1天周边游（比如都江堰或青城山），行程该怎么合理分配？

在 评测集 页签，单击右侧的 提交新版本 按钮。在弹出的窗口中设置版本号和版本说明，然后单击提交。

步骤四：创建并发起实验

创建实验时，你需要为实验关联评测集、评估器和评测对象。

访问扣子罗盘，在左侧导航栏顶部，选择你的工作空间。
在左侧导航栏，选择评测 > 实验，然后单击 + 新建实验。
填写基础信息。输入实验名称和描述，然后单击 下一步: 评测集。
在 评测集 页面，选择你在步骤二创建的评测集，并选择要使用的评测集版本，然后单击下一步：评测对象。
在 评测对象 页面，按照下面的参数说明配置评测对象。然后单击下一步：评估器。

参数

说明

类型

选择 火山智能体。

应用

选择你的行程规划 Agent。

字段映射

把评测对象的 user_input 映射到评测集的 input。
在 评估器 页面，单击 +添加评估器 为评测实验设置评估器。评估器配置完成后，单击确认实验配置。
本文使用以下评估器：
- 名称为 “轨迹-工具参数填充正确性” 的预置评估器，类型为 LLM 评估器，字段映射为：评估器 Trajectory = 评测对象 Trajectory。
- 名称为 “轨迹-工具利用率” 的预置评估器，类型为 LLM 评估器。字段映射为：评估器 Trajectory = 评测对象 Trajectory。
注意
- 这里的 评测对象 Trajectory 就是行程规划 Agent 的实时轨迹。
- 一般情况下，字段映射的参数类型必须完全相同。但是，如果评估器中用于接收轨迹数据的参数为 String 类型，你也可以将包含轨迹数据的字段映射到该参数。
在页面底部，设置最大并发执行条数。
检查实验配置，确认无误后，单击发起实验。发起实验后，你可以刷新实验页面，查看评测进度。

参数	说明
类型	选择火山智能体。
应用	选择你的行程规划 Agent。
字段映射	把评测对象的 user_input 映射到评测集的 input。

步骤五：查看实验结果

实验运行完成后，你可以查看实验结果。

查看数据明细

在 数据明细 页签，你可以查看每条评测集数据的评测结果，包括评测集数据、评测对象输出数据和评估器得分。你还可以在操作列单击详情，查看每条评测集数据的详情。

其中每列数据的说明如下：

ID：代表数据项的 ID。
input 是评测集的列名。
actual_output：代表评测对象（即行程规划 Agent）的实际输出。你可以单击 actual_output 右侧的 查看实际输出的 Trace 图标查看评测对象实际输出的 Trace 数据。
trajectory 运行轨迹：代表评测对象的轨迹数据。你可以单击 trajectory 运行轨迹 右侧的 轨迹可视化 图标查看评测对象的轨迹可视化数据。
轨迹-工具参数填充正确性 和 轨迹-工具利用率 这两列展示了对应名称的评估器的得分和原因。每个评估器的得分会显示在各自的列中。将鼠标悬停在得分上可以看到得分和原因。

单击得分右侧的 查看评估器 Trace 图标，即可查看评估器的 Trace。
Total Latency(ms)：评测对象从请求到完整响应的总耗时 (ms)。
Input Tokens：评测对象执行过程中模型调用输入 Tokens 总消耗量。
Output Tokens：评测对象执行过程中模型调用输出 Tokens 总消耗量。
Total Tokens：评测对象执行过程中模型调用的总 Tokens 消耗量。