> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

扣子罗盘现已支持自动化采样并实时评测 Trace 数据，实现 Agent 的线上质量监控、迭代效果比对，提升评测集的数据质量。如果你已经基于扣子开发平台或 Eino 等全码开发框架构建了较为成熟的 Agent，并希望对 Agent 进行更加精细、全面的效果度量、调优指导，使 Agent 达到更优秀、更稳定效果，你可以为 Agent 配置自动化 Trace 评测任务。
本文档介绍基于 Trace 自动评测 Agent 的常见评测维度、各场景的配置建议。
## 背景信息 {#d52cd91d}
### 什么是通用 AI Agent {#c0a6d601}
AI Agent 是一个具有感知、决策和执行能力的系统，能够在复杂环境中独立运作，通过与环境交互实现目标。Agent有如下特点：

* 自驱性（Self-Direction）：目标导向，自主决策。
* 自主性（Self-Autonomy）：在复杂环境中，无需依赖外部实时控制，依靠自身感知运行。
* 适应性（Self-Adaptability）：根据外部环境变化，系统可根据变化做出策略与模型的动态调整。

### 业务场景中的 Agent {#c9603998}
上述 Agent 的定义是衡量系统智能化程度的一个标准，在实际的 AI Agent 能力落地实践中，伴随着人与AI的协作方式不同，会产生智能化程度高低不同的 Agent，在 Agent 自驱性、自主性、适应性上存在不同程度的人的介入。对应的 Agent 实际产物多种多样，如扣子工作流、智能体、或基于 Eino 等全码框架构建的包含 LLM 的业务系统。
### Agent 评测 {#30394e8d}
扣子罗盘结合 Agent 定义，针对多种产物形态中调用轨迹、任务完成度等核心不变的部分，面向开发者提供了一种 Agent 评测的实践方法，即基于 Trace 自动评测 Agent。
应用上线后，在上报的大量 Trace 数据中，人工进行查看、筛选、回流将变得繁琐与不现实，扣子罗盘支持用户基于 Trace 数据设置自动化任务，允许在特定时间范围内，自动采样 Trace 数据，获取输入、输出并进行在线评测，旨在帮助开发者在应用发布到线上后的运维过程中，及时了解应用质量、洞察问题并进行优化，降低人工干预成本。
关于 Trace 自动评测的典型场景及配置步骤，可参考[Trace 自动评测](/cozeloop/auto-evaluation)。
### Re-Act Agent 评测 {#7b4f15b9}
本文将以Re-Act Agent为例，提供基于此类Agent Trace进行评测的最佳实践。
Re-Act Agent（Reasoning and Acting Agent）特点是将大语言模型（LLM）与外部工具（如搜索引擎、API、数据库）结合，根据用户意图，由 LLM 进行外部工具的选择、执行、并在任务完成后，生成最终答案。例如整合了各类 Tool、Plugins 调用能力的扣子工作流、智能体、基于 Eino 的构建产物等。
对于 Re-Act Agent，扣子罗盘提供了丰富的评估器模板，涵盖多种评测场景和目标。这些模板能够帮助你快速搭建专属的评测场景。通过分析 Agent 运行时生成的 Trace 数据，包括端到端流程以及内部执行拓扑的详细日志，可以从以下多个维度全面评估 Agent 的质量。
<!-- @cols-width: 177,132,174,368 -->
| | | | | \
|**一级评测维度** |**二级评测维度** |**评估器模板** |**说明** |
|---|---|---|---|
| | | | | \
|Agent端到端效果 |\- |任务完成度 |评估Agent是否最终完成了用户意图。 |
| | | | | \
|Agent内部轨迹质量 |完整轨迹 |轨迹质量 |评估Agent选择的工具调用路径是否最优。 |
|^^| | | | \
| |单跳轨迹 |模型选择工具正确性 |评估LLM是否能选择有利于解决问题的工具。 |
|^^|^^| | | \
| | |模型调用工具参数正确性 |评估LLM进行Tool Call时是否能构造正确的调用参数。 |

原理示意如下：
![Image=537x369](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/b0649ff0cbed471aa03cab13c6a25b4c~tplv-goo7wpa0wc-image.image)
本文档将以评测扣子智能体、评测全码 Agent 为例演示自动评测的原理和步骤，其他场景也可以参考以下思路实现。
## 准备工作 {#2d1959dd}
根据以下示例场景方案逐步操作前，应确保：

* 已了解基于 Trace 发起评测的操作步骤，详细说明可参考[Trace 自动评测](/cozeloop/auto-evaluation)。
* 已了解如何配置评估器，详细说明可参考[管理自建评估器](/cozeloop/create_evaluators)。
* 已了解评测实验的配置方式，详细说明可参考[管理实验](/cozeloop/create-experiments)。

## 示例场景1：评测扣子智能体 {#2bbf1c89}
以一个知识百科助手为例，提供古代史和天气查询相关知识问答服务，其中古代史知识问答和天气查询服务分别调用头条搜索插件和墨迹天气插件工具完成。评测该智能体时，我们可以基于智能体已上报的 Trace 数据创建自动评测任务，评测重点在于以下两个方面：

* 模型是否选择了正确的插件工具。
* 模型选定插件工具后，根据上下文构建的调用参数是否正确。

扣子罗盘提供了多个评估器模板，我们可以选择**工具选择质量**、**工具参数正确性**两个模板进行评测。
### 步骤一：搭建扣子智能体 {#ce50d251}
在扣子开发平台中创建知识百科助手智能体（Agent(TSQ)），并为其配置头条搜索、墨迹天气查询两个插件，并在提示词中要求模型根据用户问题的意图，分别调用不同的工具。详细的操作方式，可参考[搭建一个 AI 助手智能体](/guides/quickstart)。
配置示例如下：
![Image=2516x719](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/de18d97f7d9b46af8efec1d88a5f18ad~tplv-goo7wpa0wc-image.image)
### 步骤二：准备评估器 {#7e4d831d}
在扣子罗盘中基于模板创建两个评估器，并提交版本。

* **工具选择质量**：评估模型是否选择了正确的插件工具。
* **工具参数正确性**：评估模型构建的调用参数是否正确。

以上两个评估器，均包含以下三类变量作为评估的输入

* **context**：工具调用的历史上下文
* **actual_tool_calls**：模型实际选择的工具
* **tool_definitions_list**：模型可选的工具列表

创建评估器并提交版本的操作方式可参考[管理自建评估器](/cozeloop/create_evaluators)。
示例如下：

::::cols
@col 50
**工具选择质量：**
<div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f2c5bb8942604c1fbe4b7b7c0c867c58~tplv-goo7wpa0wc-image.image" width="2068px" height="1636px" /></div>


@col 50
**工具参数正确性**：
![Image=2068x1636](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/edcca7ff1a1546f1aa3aea47e56fbac8~tplv-goo7wpa0wc-image.image)

::::

### 步骤三：配置自动化任务 {#19f8e692}
:::tip 说明
操作前请确保：

* 该智能体已上报 Trace 数据：在 Coze 开发平台中调试智能体、在各种发布渠道中使用智能体均可触发开箱即用的 Trace 上报。
* 你已具备在罗盘查看Trace的权限：是该智能体的协作者或所有者。
:::

1. 筛选目标 Trace。
   筛选目标 Trace 可以确保你在后续配置自动化任务的过滤器时，可以筛选出符合预期的 Span，例如这个案例中需要筛选出进行工具调用的模型节点。
   在扣子罗盘左侧导航栏中选择观测 > Trace，配置过滤器，查看是否可以正确筛选出该智能体用于调工具的 LLM Span 数据。
   * **查看方式**：Model Span，用于筛选出 LLM 类型 Span。
   * **数据来源**：Coze 智能体，用于筛选出智能体产生的 Span。
   * **Output**：tool_calls，用于筛选出 Span output 字段中包含实际工具调用的 Span 节点。该配置是关键过滤项，因为一次请求触发的 Trace 上的 Span 可能会涉及多次 LLM Span 节点（如进行响应结果润色的 LLM Span）。更多关于 Span 规范的定义可参见[Coze Loop SDK Trace Specification](https://github.com/coze-dev/cozeloop-go/tree/main/spec/tracespec)。
   * **Bot Name**：Agent(TSQ)，用于筛选出名为 Agent(TSQ) 的智能体的 Span
      ![Image=536x273](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/dd3f8e17cee147728acb8c27395a93f5~tplv-goo7wpa0wc-image.image)
   打开检索到的Span详情，确认Span节点为目标节点：
   ![Image=532x331](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/4d99f01586ef4409ba881795b3b49b87~tplv-goo7wpa0wc-image.image)
2. 配置自动化任务基础信息。
   点击**创建自动化任务** > **自动评测**，进入配置页面。配置基础信息，注意此时过滤器会默认继承上个步骤在列表页配置的过滤条件。配置方式详细说明可参考[Trace 自动评测](/cozeloop/auto-evaluation)。


::::cols
@col 50
   ![Image=3334x1724](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/0c2b30091f6842ce8049f1c576401655~tplv-goo7wpa0wc-image.image)


@col 50
![Image=3366x1934](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/9550373b9d4e443a87d48163fc44a5d9~tplv-goo7wpa0wc-image.image)

::::


3. 配置评估器及字段映射。
   为自动化任务配置**工具选择质量**、**工具参数正确性**两个评估器，也就是[步骤二：准备评估器](/cozeloop/evaluate_trace_of_react_agent#7e4d831d)中创建的评估器。然后依次为两个评估器配置字段映射。配置方式详细说明可参考[Trace 自动评测](/cozeloop/auto-evaluation)。
   根据前文提过的[Coze Loop SDK Trace Specification](https://github.com/coze-dev/cozeloop-go/tree/main/spec/tracespec)，Coze智能体默认上报的Span和评估器变量的映射关系如下与评估器变量的对应关系如下。
   <!-- @cols-width: 194,168,312 -->
   | | | | \
   |**字段含义** |**评估器变量（左值）** |**Span对应字段（右值）** |
   |---|---|---|
   | | | | \
   |工具调用的历史上下文 |context |Input.messages |
   | | | | \
   |模型实际选择的工具 |actual_tool_calls |Output.choices[0].message.tool_calls |
   | | | | \
   |模型可选的工具列表 |tool_definitions_list |Input.tools |

   点击完成，即可发起自动化任务
   ![Image=478x280](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/06ab4304d99d49eaa1109cf9d30e4139~tplv-goo7wpa0wc-image.image)
4. 查看自动化任务报告。
   自动化任务会持续监听是否有过滤条件命中的 Trace Span 产生。


::::cols
@col 50
   当有命中 Span后，则会触发评估器对Span数据的评测动作并生成实验报告。在该案例中，即评估此类模型节点选择工具是否正确、构建工具参数是否正确。
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/4f3bc242b5b641dc802e7e360a886c2b~tplv-goo7wpa0wc-image.image" width="3362px" height="1834px" />   </div>


@col 50
当自动化任务或实验完成后，则会以实验为粒度，在自动化任务详情页提供实验粒度在各指标维度的统计结果。
<div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/6ada0c4a0e2b4e71bac402b87da3079f~tplv-goo7wpa0wc-image.image" width="3362px" height="1728px" /></div>


::::


   你也可以在每个实验报告的详情页，查看对应的数据明细与指标统计，详见 [管理实验-单实验分析](https://loop.coze.cn/open/docs/cozeloop/create-experiments#3fa8602a)。


::::cols
@col 50
   ![Image=3310x1252](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f8f75579d43a4a948d49f0740c0bc693~tplv-goo7wpa0wc-image.image)


@col 50
![Image=3344x1902](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/dee92e38f87441998d4091d36fc6fc75~tplv-goo7wpa0wc-image.image)

::::

## 示例场景2：评测 LangGraph Agent {#42e25e19}
在该实践场景中，你将会了解到，针对一个使用 Langgraph 构建的全码 Agent，在它配置了若干插件、工具用于对应不同的业务场景时，评测该 Agent 的方式。
基于 Eino 或者 LangGraph 全码开发的 Agent，可以通过扣子罗盘 SDK 上报 Agent Trace。我们可以通过合适的 Agent 评估器在 Agent 执行的适合位置做对应的自动化任务-自动评测。在本场景中，我们以一个旅行行程规划的 Agent 为例，此 Agent 是全码开发的 Agent，预期是调用搜索插件可完成对特定地区和时间的旅游行程规划，例如 25 年春节云南的旅行规划。
### 步骤一：构建 LangGraph Agent {#ae36c9f2}
用 LangGraph 或 Eino 构建一个 Workflow。下图是基于 LangGraph 构建出的 Workflow 拓扑示意图，我们可以在下图中的点位进行评测。
![Image=3158x1443](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/36e50c3d23814b8c8cab238bc657ce15~tplv-goo7wpa0wc-image.image)
LangGraph 关键代码如下：
```Python
# 1. node的实现
# 1.1 planner node
def planner_node(state: MyState) -> dict:
    messages = state["messages"]
    must_sp = '你是一个行程规划大师，按照用户的需求规划出一个行程，必须调用合适的工具满足用户的需求，结果里必须结合自然景点、人文景点、当地美食三个方面，每个方面都结合当地的实际情况，必须使用工具'

    messages.append(SystemMessage(content=should_sp))
    response = model_with_tools.invoke(messages, RunnableConfig(tags=["planner_node"]))
    return {"messages": [response]}
# 1.2 tool node
tool_node = ToolNode(toolList)
# 1.3 generation node
def generation_node(state: MyState) -> dict:
    messages = state["messages"]
    response = model_with_openai.invoke(messages, RunnableConfig(tags=["tool_selection_node"]))
    return {"messages": [response]}
    
# 2. langgraph图构建
# 2.1 绘图
workflow = StateGraph(MyState)
workflow.add_edge(START, "planner")
workflow.add_node("planner", planner_node)
workflow.add_node("tools", tool_node)
workflow.add_node("generation", result_node)
workflow.add_edge("planner", "tools")
workflow.add_edge("tools", "generation")
app = workflow.compile()
# 2.2 编译图和执行
# 2.2.1
app = workflow.compile()
# 2.2.2 可选：cozeloop集成trace上报
trace_callback_handler = LoopTracer.get_callback_handler(client)
# 2.2.3 用户query执行
output = app.invoke(
    input={"messages": [
        {
            "role": "user",
            "content": "给我规划一个25年{春节期间}的旅游规划，旅游地点是{云南}",
        }
    ]},
    config=RunnableConfig(callbacks=[trace_callback_handler]))
print(output['messages'][-1].content)
```

### 步骤二：Agent 上报 Trace {#543cbc07}
通过扣子罗盘 SDK 上报 Trace 之后，可以在扣子罗盘中查看每条 Trace 数据中各个执行节点的详细信息，包括输入、输出等字段。
<!-- @cols-width: 130,249,275,307 -->
| | | || \
|**节点** |**节点说明** | **Trace 示例** | |
|---|---|---|---|
| | | | | \
|根节点 |\
| |* start 和 end 节点。 |\
| |* input：按照自然景观、人文景观、当地美食三个维度推荐行程规划。 |\
| |* output：返回了执行的中间过程（轨迹）和最终结果。 |![Image=239x149](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/64e3b5e991744894a1f0e146e7cf8176~tplv-goo7wpa0wc-image.image) |\
| | | |\
| | | |![Image=3038x1886](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/ff0fc785e5c14c2f82505ccc4776e7c2~tplv-goo7wpa0wc-image.image) |
| | | | | \
|planner节点 |\
| |绑定搜索插件，根据用户意图识别出需要调用的插件和参数。 |![Image=3070x1914](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/5b886a16c7714cd6ac94692081325003~tplv-goo7wpa0wc-image.image) |\
| | | |\
| | | |![Image=3056x1874](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/2ef88d07c9f6456b8814af39089d2e1a~tplv-goo7wpa0wc-image.image) |
| | | | | \
|Generation节点 |\
| |根据上下文和工具调用信息生成最终的答案返回。 |![Image=3018x1914](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/3695822ad12e4eba943b2af79d898d20~tplv-goo7wpa0wc-image.image) |\
| | | |\- |

### 步骤三：准备评估器 {#1bcc14f2}
准备以下评估器。各个评估器的评估 Prompt 及变量渲染后的执行结果如下。

* 工具选择质量
   
   :::: tabs
   @tab Prompt
   ```XML
   你的任务是根据问题上下文、助手的回复，以及当前可调用工具的列表，一步步思考，判断 AI 助手选择的工具是否合适。
           <评判标准>
           请忽略工具参数的具体设置，合适的工具应满足：
           1. 工具的功能和问题需求相符，调用该工具应能有效且完全解决问题，就是 1 分。
           2. 工具在当前可调用工具列表中，不是虚构或无效的工具。
           3. 调用的工具中有不符合用户意图的，整体工具选择即被视为错误。
           </评判标准>
   
           <输入>
           [历史上下文]：{{context}}
           [AI 助手选择工具]：{{actual_tool_calls}}
           [可调用工具列表]：{{tool_definitions_list}}
           </输入>
           
           <思考指导>
           首先，请通过查看输入的上下文理解用户的真实意图。如果输入中没有明确表达意图，请尝试从上下文或消息内容中合理推断。一旦你理解了目标，请严格根据评判标准分析助手的工具选择是否合适。
           根据Prompt 中的评判标准一步步思考、分析，满足评判标准就是 1 分，否则就是 0 分。
           行程规划的部分必须有自然景点、人文景点、当地美食、注意事项四个方面
          </思考指导>
   ```
   
   
   @tab 变量渲染后执行的结果
   ```JSON
   你的任务是根据问题上下文、助手的回复，以及当前可调用工具的列表，一步步思考，判断 AI 助手选择的工具是否合适。
   <评判标准>
   请忽略工具参数的具体设置，合适的工具应满足：
   1. 工具的功能和问题需求相符，调用该工具应能有效且完全解决问题，就是 1 分。
   2. 工具在当前可调用工具列表中，不是虚构或无效的工具。
   3. 调用的工具中有不符合用户意图的，整体工具选择即被视为错误。
   </评判标准>
   
   <输入>
   [历史上下文]：[{"content":"给我规划一个25年{春节期间}的旅游规划，旅游地点是{云南}","role":"human"},{"content":"你是一个行程规划大师，按照用户的需求规划出一个行程，调用合适的工具满足用户的需求，按需结合自然景点、人文景点、当地美食三个方面，每个方面都结合当地的实际情况，必须使用工具","role":"system"}]
   [AI 助手选择工具]：[{"function":{"arguments":{"query":"云南春节旅游景点推荐"},"name":"tavily_search_results_json"},"id":"call_iIRYMdO96rPOWVYSrj26U0gd","type":"function"}]
   [可调用工具列表]：[{"function":{"description":"A search engine optimized for comprehensive, accurate, and trusted results. Useful for when you need to answer questions about current events. Input should be a search query.","name":"tavily_search_results_json","parameters":{"properties":{"query":{"description":"search query to look up","type":"string"}},"required":["query"],"type":"object"}},"type":"function"}]
   </输入>
   
   <思考指导>
   首先，请通过查看输入的上下文理解用户的真实意图。如果输入中没有明确表达意图，请尝试从上下文或消息内容中合理推断。一旦你理解了目标，请严格根据评判标准分析助手的工具选择是否合适。
   根据Prompt 中的评判标准一步步思考、分析，满足评判标准就是 1 分，否则就是 0 分。
   行程规划的部分必须有自然景点、人文景点、当地美食、注意事项四个方面
   </思考指导>
   <输出要求>
   最终输出必须是一个 json 对象，包含 reason 和 score 两个字段。
   {{
   "reason":"打分的理由",
   "score":"得分。只能是 1 或者 0/得分从 0 到 1"
   }}
   </输出要求>
   ```
   
   
   ::::

* 工具参数选择
   
   :::: tabs
   @tab Prompt
   ```XML
   请将AI 助手生成的工具调用中提取的参数与下方提供的 JSON 进行比较，一步步思考，以判断生成的调用是否从问题中提取了完全正确的参数。 [工具定义列表]中给出了当前调用工具的信息，包括工具作用、所需参数等信息。
   
           <评判标准>
           只有当工具调用中的所有参数均与输入中提供的[工具定义列表]中完全一致，且只提供了相关的信息，才视为“正确”。例如：
   
           - 所有必需参数（required parameters）必须完整提供；
           - 参数名必须跟[工具定义列表]中完全一致；
           - 不得包含[工具定义列表]中未定义的参数；
           - 参数类型必须与[工具定义列表]中定义的类型一致；
           - 所有参数的值必须根据上下文正确地填写，不能凭空捏造，必须和意图一致；
           - 不允许生成任何虚构信息（hallucination）；
           - 若未提供的参数为可选参数（optional），且[工具定义列表]中有默认值，则默认使用即可，不视为错误。
   
           </评判标准>
   
           <输入>
           [历史上下文]：{{context}}
           [AI 助手的工具调用]：{{actual_tool_calls}}
           [工具定义列表]:{{tool_definitions}}
           </输入>
           
           <思考指导>
           首先，请通过查看输入的上下文理解用户的真实意图。如果输入中没有明确表达意图，请尝试从上下文或消息内容中合理推断。一旦你理解了目标，再将每个参数结合意图，一步步分析是否填写正确。
           对于参数值，一个一个列出来，然后检查参数值是不是在上下文中真的有提到，且符合意图。根据Prompt 中的评判标准一步步思考、分析，满足评判标准就是 1 分，否则就是 0 分。
           </思考指导>
   
         
   ```
   
   
   @tab 变量渲染后执行的结果
   ```JSON
   请将AI 助手生成的工具调用中提取的参数与下方提供的 JSON 进行比较，一步步思考，以判断生成的调用是否从问题中提取了完全正确的参数。 [工具定义列表]中给出了当前调用工具的信息，包括工具作用、所需参数等信息。
   
   <评判标准>
   只有当工具调用中的所有参数均与输入中提供的[工具定义列表]中完全一致，且只提供了相关的信息，才视为“正确”。例如：
   
   - 所有必需参数（required parameters）必须完整提供；
   - 参数名必须跟[工具定义列表]中完全一致；
   - 不得包含[工具定义列表]中未定义的参数；
   - 参数类型必须与[工具定义列表]中定义的类型一致；
   - 所有参数的值必须根据上下文正确地填写，不能凭空捏造，必须和意图一致；
   - 不允许生成任何虚构信息（hallucination）；
   - 若未提供的参数为可选参数（optional），且[工具定义列表]中有默认值，则默认使用即可，不视为错误。
   
   </评判标准>
   
   <输入>
   [历史上下文]：[{"content":"给我规划一个25年{春节期间}的旅游规划，旅游地点是{云南}","role":"human"},{"content":"你是一个行程规划大师，按照用户的需求规划出一个行程，调用合适的工具满足用户的需求，按需结合自然景点、人文景点、当地美食三个方面，每个方面都结合当地的实际情况，必须使用工具","role":"system"}]
   [AI 助手的工具调用]：[{"function":{"arguments":{"query":"云南春节旅游景点推荐"},"name":"tavily_search_results_json"},"id":"call_iIRYMdO96rPOWVYSrj26U0gd","type":"function"}]
   [工具定义列表]:[{"function":{"description":"A search engine optimized for comprehensive, accurate, and trusted results. Useful for when you need to answer questions about current events. Input should be a search query.","name":"tavily_search_results_json","parameters":{"properties":{"query":{"description":"search query to look up","type":"string"}},"required":["query"],"type":"object"}},"type":"function"}]
   </输入>
   
   <思考指导>
   首先，请通过查看输入的上下文理解用户的真实意图。如果输入中没有明确表达意图，请尝试从上下文或消息内容中合理推断。一旦你理解了目标，再将每个参数结合意图，一步步分析是否填写正确。
   对于参数值，一个一个列出来，然后检查参数值是不是在上下文中真的有提到，且符合意图。根据Prompt 中的评判标准一步步思考、分析，满足评判标准就是 1 分，否则就是 0 分。
   </思考指导>
   ```
   
   
   ::::

* Agent 任务完成度
   
   :::: tabs
   @tab Prompt
   ```XML
   你是一位Agent任务评估助手，你的任务是评估一个 Agent 中是否成功、完整地实现了用户的目标。
   
           <输入> 
           [用户输入]：{{user_input}}
           [Agent 响应]:{{agent_output}} 
           </输入>
   
           <评分标准>
           请根据任务完成程度给出一个得分：
           - 1.0：完全完成任务，表述清晰且完整。
           - 0.5：基本完成任务，但内容不够清楚。
           - 0.0：Agent没有完成任务。即使解释合理，但实质上未完成用户任务也得 0 分。
           </评分标准>
   
           <思考指导>
           首先，请通过查看输入的上下文理解用户的真实意图。如果输入中没有明确表达意图，请尝试从上下文或消息内容中合理推断。一旦你理解了目标，请开始判断 Agent 最终响应是否成功完成了目标。然后依照评分标准，按照完成任务的程度给出最终得分。
           行程规划的结果必须有自然景点、人文景点、当地美食、注意事项四个方面
           </思考指导>
   ```
   
   
   @tab 变量渲染后执行的结果
   ```JSON
   你是一位Agent任务评估助手，你的任务是评估一个 Agent 中是否成功、完整地实现了用户的目标。
   
   <输入>
   [用户输入]：给我规划一个25年{春节期间}的旅游规划，旅游地点是{云南}
   [Agent 响应]:{"content":"在接下来的25年里，为您规划一个25次春节期间云南的旅游行程，包括一些推荐的自然景点、文化景点，以及当地美食体验。\n\n### 1-5 年：探索云南经典之旅\n1. **元阳梯田**：\n - *活动*：徒步走遍梯田、摄影。\n - *美食*：尝试火腿炒饭和哈尼族特有的饮食如青笋鱼汤。\n\n2. **丽江古城**：\n - *活动*：体验纳西古乐，参加篝火晚会。\n - *美食*：品尝腊排骨火锅和纳西风味小吃。\n\n3. **大理古城与洱海**：\n - *活动*：洱海骑自行车、拍摄白族建筑。\n - *美食*：债法海螺、酸辣鱼。\n\n4. **玉龙雪山**：\n - *活动*：乘坐索道登山、观看印象丽江演出。\n - *美食*：高原牦牛肉、雪山牦奶制品。\n\n5. **昆明市区游**：\n - *活动*：游览滇池、翠湖公园、西山龙门。\n - *美食*：云南过桥米线、汽锅鸡。\n\n### 6-10 年：深入探访多元文化\n6. **香格里拉**：\n - *活动*：参观普达措国家公园，感受藏族风情。\n - *美食*：藏式火锅、酥油茶。\n\n7. **西双版纳**：\n - *活动*：探秘热带雨林和傣族文化。\n - *美食*：傣族手抓饭、香茅烤鱼。\n\n8. **德宏芒市**：\n - *活动*：体验傣族泼水节、参观菩提古镇。\n - *美食*：傣味卤鸭、三七鸡。\n\n9. **红河建水**：\n - *活动*：游览朱家花园、骑行建水古城。\n - *美食*：建水豆腐、蒙自年糕。\n\n10. **楚雄州**：\n - *活动*：参观彝人古镇，体验彝族火把节。\n - *美食*：彝族烧烤、萝卜丝饵块。\n\n### 11-25 年：探索未开发的秘境\n11. **普者黑**：\n - 环湖划船，在秀丽山水间生活。\n - *美食*：普者黑烤鸭、凉卷粉。\n\n12. **腾冲**：\n - 探索火山热海，体验温泉。\n - *美食*：腾冲饵丝、腌酸菜。\n\n13. **泸沽湖**：\n - 看摩梭人走婚，多维文化融合。\n - *美食*：盐焗鸡、香煎菜豆腐。\n\n14. **迪庆藏族自治州**：\n - 寻觅梅里雪山，徒步探险。\n - *美食*：糌粑、风干肉。\n\n15. **文山州广南八宝**：\n - 感受原始森林与传统村落。\n - *美食*：苦荞粑粑、豆豉泡螺。\n\n16-25年可以继续探访其他如会泽、罗平油菜花海等未开发或游客较少的地方，尝试更多新鲜的地方特色活动与美食。\n\n希望这个详细的25年旅游规划能够帮助您每年在云南度过一个难忘的春节假期！","role":"assistant"}
   </输入>
   
   <评分标准>
   请根据任务完成程度给出一个得分：
   - 1.0：完全完成任务，表述清晰且完整。
   - 0.5：基本完成任务，但内容不够清楚。
   - 0.0：Agent没有完成任务。即使解释合理，但实质上未完成用户任务也得 0 分。
   </评分标准>
   
   <思考指导>
   首先，请通过查看输入的上下文理解用户的真实意图。如果输入中没有明确表达意图，请尝试从上下文或消息内容中合理推断。一旦你理解了目标，请开始判断 Agent 最终响应是否成功完成了目标。然后依照评分标准，按照完成任务的程度给出最终得分。
   </思考指导>
   ```
   
   
   ::::

* Agent 轨迹质量
   
   :::: tabs
   @tab Prompt
   ```XML
   你是一位专业的数据标注员。你将接收到一个输入的轨迹，你的任务是评估一个Agent的内部轨迹的准确性。
   
           <评分标准>
           一个准确的轨迹应当满足以下条件：
           1. 各个步骤之间逻辑通顺
           2. 显示出清晰的推进过程
           </评分标准>
   
           <得分表>
           - 1.0 ：成功实现任务目标，且不存在与任务无关的步骤（为提升任务质量所做的合理扩展除外）。
           - 0.5 ：成功实现任务目标，但包含明显与任务无关的多余步骤。
           - 0.0 ：未能实现任务目标。
           </得分表>
           
           <输入>
           请对以下轨迹进行评分：
           [轨迹]:{{messages}}
           </输入>
   
           <思考指导>
           首先，请通过查看输入内容（如果没有明确的输入，请尝试从第一条消息中推断出用户的意图），以及最终消息的输出，来理解该轨迹的目标。一旦你理解了目标，请一步步思考，根据该轨迹实现该目标的程度进行评分。
           </思考指导>
   ```
   
   
   @tab 变量渲染后执行的结果
   ```JSON
   你是一位专业的数据标注员。你将接收到一个输入的轨迹，你的任务是评估一个Agent的内部轨迹的准确性。
   
   <评分标准>
   一个准确的轨迹应当满足以下条件：
   1. 各个步骤之间逻辑通顺
   2. 显示出清晰的推进过程
   </评分标准>
   
   <得分表>
   - 1.0 ：成功实现任务目标，且不存在与任务无关的步骤（为提升任务质量所做的合理扩展除外）。
   - 0.5 ：成功实现任务目标，但包含明显与任务无关的多余步骤。
   - 0.0 ：未能实现任务目标。
   </得分表>
   
   <输入>
   请对以下轨迹进行评分：
   [轨迹]:[{"content":"给我规划一个25年{春节期间}的旅游规划，旅游地点是{云南}","role":"human"},{"content":"你是一个行程规划大师，按照用户的需求规划出一个行程，调用合适的工具满足用户的需求，按需结合自然景点、人文景点、当地美食三个方面，每个方面都结合当地的实际情况，必须使用工具","role":"system"},{"role":"assistant","tool_calls":[{"function":{"arguments":"{\"query\":\"云南春节旅游景点推荐\"}","name":"tavily_search_results_json"},"id":"call_8Qp3GwJFLVRs6ZpIPKZt5SDO","type":"function"}]},{"content":"[{\"title\": \"春节云南家庭旅行必看景点与攻略：一篇文章带你领略云南的山水之美\", \"url\": \"https://www.sohu.com/a/842459712_122003499\", \"content\": \"![Image 5](https://q0.itc.cn/q_70/images01/20241227/32a5f3dcf3f64caea7bd83c158e700d0.jpeg)\\n\\n**必看景点**\\n\\n**1. 元阳梯田**\\n\\n**1. 位置**：云南省红河州元阳县\\n\\n**2. 特色**：元阳梯田是哈尼族、彝族等少数民族的聚居地，这里的梯田规模宏大，气势磅礴，被誉为“天下之一梯田”。春节期间，您可以和家人一起漫步在美丽的梯田中，感受大自然的神奇与壮丽。\\n\\n**2. 丽江古城**\\n\\n**1. 位置**：云南省丽江市\\n\\n**2. 特色**：丽江古城是世界文化遗产，以其保存完好的古建筑和丰富的纳西文化而著名。春节期间，古城内张灯结彩，热闹非凡，您可以和家人一起品味纳西族的独特风情，感受浓厚的节日氛围。\\n\\n**3. 大理古城与洱海**\\n\\n[_展开全文_](javascript:;)\\n\\n**1. 位置**：云南省大理市\\n\\n**2. 特色**：大理古城古朴典雅，风景如画，是洱海风光和白族民俗的完美结合。春节期间，您可以和家人一起骑行洱海，欣赏湖光山色，感受白族人民的淳朴生活。 [...] **4. 玉龙雪山**\\n\\n**1. 位置**：云南省丽江市\\n\\n**2. 特色**：玉龙雪山以其雄伟壮丽的景色和丰富的自然资源而著称。春节期间，您可以和家人一起乘坐索道上山，近距离欣赏高海拔冰川的瑰丽景色，体验高原风光的独特魅力。\\n\\n**5. 昆明市区游**\\n\\n**1. 位置**：云南省昆明市\\n\\n**2. 特色**：昆明被誉为“春城”，一年四季如春。春节期间，您可以和家人一起游览滇池、翠湖公园、西山龙门等景点，感受昆明的美景和浓厚的文化氛围。\\n\\n![Image 6](https://q6.itc.cn/q_70/images01/20241227/c199e54dc6584a8d85d4a3fecac287bc.jpeg)\\n\\n**实用攻略**\\n\\n**1. 交通**\\n\\n1. 春节期间，云南各大机场、火车站和汽车站都有丰富的航班、列车和长途汽车可供选择。建议提前预订机票和火车票，以确保行程顺利。\\n\\n2. 在云南内部旅行时，可以选择租车自驾、乘坐长途汽车或参加当地的旅行团。自驾时需注意道路条件和安全问题。\\n\\n**2. 住宿**\", \"score\": 0.9177831}]","role":"tool"},{"content":"在接下来的25年里，为您规划一个25次春节期间云南的旅游行程，包括一些推荐的自然景点、文化景点，以及当地美食体验。\n\n### 1-5 年：探索云南经典之旅\n1. **元阳梯田**：\n - *活动*：徒步走遍梯田、摄影。\n - *美食*：尝试火腿炒饭和哈尼族特有的饮食如青笋鱼汤。\n\n2. **丽江古城**：\n - *活动*：体验纳西古乐，参加篝火晚会。\n - *美食*：品尝腊排骨火锅和纳西风味小吃。\n\n3. **大理古城与洱海**：\n - *活动*：洱海骑自行车、拍摄白族建筑。\n - *美食*：债法海螺、酸辣鱼。\n\n4. **玉龙雪山**：\n - *活动*：乘坐索道登山、观看印象丽江演出。\n - *美食*：高原牦牛肉、雪山牦奶制品。\n\n5. **昆明市区游**：\n - *活动*：游览滇池、翠湖公园、西山龙门。\n - *美食*：云南过桥米线、汽锅鸡。\n\n### 6-10 年：深入探访多元文化\n6. **香格里拉**：\n - *活动*：参观普达措国家公园，感受藏族风情。\n - *美食*：藏式火锅、酥油茶。\n\n7. **西双版纳**：\n - *活动*：探秘热带雨林和傣族文化。\n - *美食*：傣族手抓饭、香茅烤鱼。\n\n8. **德宏芒市**：\n - *活动*：体验傣族泼水节、参观菩提古镇。\n - *美食*：傣味卤鸭、三七鸡。\n\n9. **红河建水**：\n - *活动*：游览朱家花园、骑行建水古城。\n - *美食*：建水豆腐、蒙自年糕。\n\n10. **楚雄州**：\n - *活动*：参观彝人古镇，体验彝族火把节。\n - *美食*：彝族烧烤、萝卜丝饵块。\n\n### 11-25 年：探索未开发的秘境\n11. **普者黑**：\n - 环湖划船，在秀丽山水间生活。\n - *美食*：普者黑烤鸭、凉卷粉。\n\n12. **腾冲**：\n - 探索火山热海，体验温泉。\n - *美食*：腾冲饵丝、腌酸菜。\n\n13. **泸沽湖**：\n - 看摩梭人走婚，多维文化融合。\n - *美食*：盐焗鸡、香煎菜豆腐。\n\n14. **迪庆藏族自治州**：\n - 寻觅梅里雪山，徒步探险。\n - *美食*：糌粑、风干肉。\n\n15. **文山州广南八宝**：\n - 感受原始森林与传统村落。\n - *美食*：苦荞粑粑、豆豉泡螺。\n\n16-25年可以继续探访其他如会泽、罗平油菜花海等未开发或游客较少的地方，尝试更多新鲜的地方特色活动与美食。\n\n希望这个详细的25年旅游规划能够帮助您每年在云南度过一个难忘的春节假期！","role":"assistant"}]
   </输入>
   
   <思考指导>
   首先，请通过查看输入内容（如果没有明确的输入，请尝试从第一条消息中推断出用户的意图），以及最终消息的输出，来理解该轨迹的目标。一旦你理解了目标，请一步步思考，根据该轨迹实现该目标的程度进行评分。
   </思考指导>
   
   
   无论如何你必须调用绑定的工具。
   ```
   
   
   ::::


### 步骤四：配置自动化任务 {#8046dfb0}
在扣子罗盘中基于 Trace 数据配置自动化任务。其中 Trace 的过滤方式、采样比率、上限、重复频率、按日期重复配置等填写示例如下：

   ![Image=301x237](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/d8378edc2aab441c86012a75d183ca90~tplv-goo7wpa0wc-image.image)

配置完成后，我们可以在调试页面试运行评测，查看各个评估器的评测效果。如果评估效果符合预期，可以单击确定，完成自动化任务的配置。
你可以参考以下示例查看评测效果：

* 工具选择质量
   用户需求为规划 2025 年云南春节旅游规划，需涵盖自然景点、人文景点、当地美食和注意事项四个方面。AI 助手选择的工具仅涉及景点、文化活动和美食推荐，未包含注意事项，不能完全满足用户需求。因此，应该给出的分数是0分。


::::cols
@col 50
   ![Image=474x324](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/88bd3dd381054cd3b2cf227dcf3051b2~tplv-goo7wpa0wc-image.image)


@col 50
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/0b39fef96bb541acb88267e21cbe2eb1~tplv-goo7wpa0wc-image.image" width="400px" height="231px" />   </div>


::::


* 工具参数选择
   评估 Agent 在调用工具是否正确设置了参数。
   ![Image=512x358](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/2ce396a3f63742288534f6d8727c268a~tplv-goo7wpa0wc-image.image)
* Agent任务完成度。
   评估 Agent 是否完成了对25年春节去云南的详细旅行规划的任务。


::::cols
@col 50
   ![Image=514x355](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/ee84481b01384899a909ba91582ec869~tplv-goo7wpa0wc-image.image)


@col 50
   <div style="text-align: center"><img src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/239a018af4c149c29659db5e558cd65b~tplv-goo7wpa0wc-image.image" width="2370px" height="1616px" />   </div>


::::


2. Agent 轨迹质量。
   评估轨迹本身是否高效、逻辑通顺，是否有任务无关的步骤等。
   ![Image=480x324](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/293793a6b3454511a85553d55234ec30~tplv-goo7wpa0wc-image.image)

### 步骤五：查看评测报告 {#234d6eb1}
你可以在评测任务列表页查看评测报告。
<!-- @cols-width: 306,519 -->
| | | \
|**报告查看场景** |**示例** |
|---|---|
| | | \
|自动化任务聚合报告 |\
| |![Image=3016x1610](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/80ed262219114e2b9cebe889d44541e4~tplv-goo7wpa0wc-image.image) |\
| | |
| | | \
|实验报告明细结果 |![Image=3016x1640](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/64d6b6dd2b374763ba10d60618c0e7ee~tplv-goo7wpa0wc-image.image) |
| | | \
|实验报告聚合结果 |![Image=3012x1632](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/dd2ebaa9bdff41818cbc5571b29024c0~tplv-goo7wpa0wc-image.image) |

## 常见问题 {#f52cfc2b}
### 是否还可以使用其他评估器评估 Agent？ {#37f66eb4}
可以。
对于端到端维度的评估，你可以选择罗盘评估器模板中其他任意符合业务需求的评估器，开箱即用地对 Agent 的端到端输出内容进行质量评估。如果当前扣子罗盘预置的评估器模板无法满足你的诉求，你可以不借助模板自定义符合当前业务场景的评估器，或者欢迎随时联系扣子罗盘新增评估器模板。

###  {#29f67efe}