> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

应用上线后，在上报的大量 Trace 数据中，人工进行查看、筛选、回流将变得繁琐与不现实，扣子罗盘支持用户基于 Trace 数据设置自动化任务，允许在特定时间范围内，自动采样 Trace 数据，获取输入、输出并进行在线评测，旨在帮助开发者在应用发布到线上后的运维过程中，及时了解应用质量、洞察问题并进行优化，降低人工干预成本。
## 应用场景 {#637e3116}

* **线上质量监控**：应用部署上线后，用户在 Trace 模块设定自动化评测规则，扣子罗盘将对应用的真实输出进行评测实验，并在 Trace 列表和详情页展示评测结果。通过自动评测结果，能够发现 AI 应用在面对部分 Query（Input）时，表现（Output）不佳，从而进行线上应用调优。
* **迭代效果比对**：在 AI 应用迭代的过程中，需要常态化了解迭代后的应用版本表现是否更加优异，用户在平台设定自动评测任务后，能够在持续查看该任务下，不同时间周期内、同一评估指标的的评测结果，进而比对迭代效果。
* **提升数据质量**：通过筛选自动评测中的低分 Trace，并回流成评测集（详情，请参考[Trace 数据回流](/cozeloop/save-trace-to-dataset)），能够将线上真实数据沉淀为评测基准，不断丰富评测数据库，覆盖更多的场景和边界情况，提升评测的全面性和准确性。

## 创建自动评测任务 {#2f5673ad}
你可以在**观测** > **Trace** 页面或者**观测** > **自动化任务**页面创建自动评测任务，本文以 Trace 页面为例。

1. 访问[扣子罗盘](https://loop.coze.cn)，并使用扣子账号登录。
2. 在左侧导航栏顶部，选择一个工作空间。
3. 在左侧导航栏，选择**观测 > Trace**，并使用过滤器筛选出 Trace 数据。
4. 在页面右上角单击**创建自动化任务**。
5. 填写**任务信息**和**采样策略**，并单击**下一步：规则配置**。
   <!-- @cols-width: 116,144,567 -->
   | | | | \
   |**类别** |**配置** |**说明** |
   |---|---|---|
   | | | | \
   |任务信息 |名称 |自动评测任务的名称，名称不允许与已有自动化任务名称或实验名称重复。 |
   |^^| | | \
   | |描述 |自动评测任务的描述，你可以备注任务的背景和目的等基本信息。 |
   | | | | \
   |采样策略 |过滤维度 |通过过滤器筛选符合要求的 Trace 数据，只有符合要求的 Trace  数据才会被自动评测任务采集，默认筛选 Root Span 和 SDK 方式上报的 Trace 数据。 |\
   | | |过滤器中必须指定**查看方式**与**数据来源**，同时也支持添加 Latency 等其他筛选项。各个筛选项之间为`且`关系。例如你可以筛选出 Root Span 和 Coze 智能体上报的、Latency 大于 100ms 的 Trace 数据。 |\
   | | |:::tip 说明 |\
   | | |* 自动评测任务的筛选器目前无法根据特定的 Feedback 结果来筛选 Trace 数据。 |\
   | | |* 当数据来源于扣子智能体或扣子应用时，仅允许选择自己作为所有者的智能体和应用。 |\
   | | |* 创建自动化任务后新建的扣子智能体或应用不会自动被系统采集，需要重新创建一个自动化任务才能采集。 |\
   | | |::: |
   |^^| | | \
   | |时间范围 |选择时间范围，只有该时间范围内上报的 Trace 才会被自动评测任务采集。时间区间最长为一年，只能选择当前时间戳之后的时间点，不支持选择过去的时间点。 |
   |^^| | | \
   | |采样比例 |采样的比例，100% 表示全采样，即符合筛选范围的 Trace 数据都会被采样。 |
   |^^| | | \
   | |采样数据上限 |采样数据总条数。自动评测实验会消费资源点，你可以设置上限以避免大量采样导致超支。 |\
   | | |默认采样 5000 条数据，支持设置为 1~5000 条。 |
   |^^| | | \
   | |重复频率 |自动评测任务的重复频率。默认不重复，支持设置为天或周的维度重复运行。 |\
   | | |如果期望按照时间分布均匀采样，如每周采样特定条数，可以设置按周为单位重复采样，以及每次重复采样的条数上限。 |\
   | | |例如，用户期望每周自动评测 200 条线上 Trace 的输入输出，采满 1000 条数据进行系统分析，就可以将采样数据总上限设置为 1000，设定每周重复运行，每次运行采满 200条即中止，等到下一周恢复采集数据，依然是采满 200 条即中止，直到自动评测任务采满 1000 条，任务完成。 |

6. 配置评估器。
   选择评估器和版本，并配置评估器字段和 Trace 字段的映射关系。支持配置多个评估器。
   <!-- @cols-width: 144,567 -->
   | | | \
   |**配置** |**说明** |
   |---|---|
   | | | \
   |名称 |评估器的名称。 |\
   | |如果没有合适的评估器，可以根据页面提示创建一个新的，可参考[管理自建评估器](/cozeloop/create_evaluators)。 |
   | | | \
   |版本 |评估器的版本。如果尚未提交版本，可以根据页面提示去提交。 |
   | | | \
   |Prompt 详情 |展开 Prompt 详情，可查看评估器的 Prompt 是否符合自动评测要求。 |
   | | | \
   |字段映射 |通过`.+字段名`的方式下钻提取特定字段内容，例如： |\
   | | |\
   | |* 希望回流`input.query.content`信息，只需要输入`input.query.content` 即可回流。 |\
   | |* 除回流`Input.name`信息外，还希望回流`Input`里的`description`信息和`Tags`里的`tokens`信息，只需要新增字段映射行，分别输入`Input.description`和`Tags.tokens` 即可。 |\
   | | |\
   | |扣子罗盘支持模糊搜索，输入关键词时系统会自动查找相关的字段。当然，你也可以指定一个不在样本 span 中的新字段，但是配置时无法预览 value 值。 |

   配置示例如下：
   ![Image=687x539](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/ac321003481247d3ad75d8ab0d74420c~tplv-goo7wpa0wc-image.image)
7. 在字段映射右上角单击**试运行**。
   以最新一条 Trace 数据来试运行评测任务，以便确认任务配置是否正确。页面左侧展示符合筛选条件的 Trace 数据中第 1 条 Trace 数据的 Input、Output、Tags 信息，右侧展示已配置的映射关系以及在预览 Trace 中的具体取值。如果任务配置无误，可以单击**试运行**，查看该数据的评测结果。
   确认测试成功之后，可以单击保存，回到配置页面。
   ![Image=517x323](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/e7172e38d7a3409f8921f2bbc6c9f9e2~tplv-goo7wpa0wc-image.image)
8. 单击**完成**。

## 查看评测结果 {#41a9d3de}
成功创建自动评测任务之后，可以在**观测** > **自动化任务**页面查看任务的运行进度等信息。在列表中找到并单击指定任务，即可跳转至任务详情页查看评测结果。
Trace 列表页、详情页、评测任务实验详情页，均会展示评测结果，支持人工校准评测结果。

:::: tabs
@tab 评测任务详情页
在左侧导航栏，选择**观测 > 自动化任务**，可以查看当前工作空间的自动评测任务列表。
![Image=590x266](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/a618737802db49018973bbc6d2480afd~tplv-goo7wpa0wc-image.image)
单击指定任务即可跳转至任务详情页。
![Image=582x301](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/8a31a7f5b33246fea1fa4b056887c8cf~tplv-goo7wpa0wc-image.image)
在页面底部找到任务关联的实验，单击实验名称即可查看实验的详细运行结果。关于如何分析实验数据，可参考[管理实验](/cozeloop/create-experiments)。
![Image=574x303](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/1dcbe37b963240ef8d43ef0af0ae9c3d~tplv-goo7wpa0wc-image.image)

@tab Trace 页面
在左侧导航栏，选择**观测 > Trace**，通过过滤器筛选出 Trace 数据后，如果此数据被自动评测任务采样，你可以在最右侧的 Feedback 一列中查看评测结果。
![Image=619x259](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/7db80509c7174a6684de88996078aa5c~tplv-goo7wpa0wc-image.image)
单击 Trace 数据，在右侧的 Feedback 页签中可以查看详细的评测结果。
![Image=614x239](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/8b2146ad16c14ccebd6871dab1d8a891~tplv-goo7wpa0wc-image.image)
在**观测 > Trace** 页面，你还可以通过过滤器来筛选指定评估器对应的 Trace 数据，识别线上 Badcase。也可以将筛选到的 Trace 数据回流到指定的评测集，提升数据质量，便于后续开展评测实验，优化应用表现。如何回流观测数据，可参考[Trace 数据回流](/cozeloop/save-trace-to-dataset)。
![Image=569x201](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/d6ba0dcd308f49e58820d0c32a5cb491~tplv-goo7wpa0wc-image.image)

::::

## 相关操作 {#ad6e0aad}
### 查看任务详情 {#63f738be}
在左侧导航栏，选择**观测 > 自动化任务**，即可查看当前工作空间下的所有自动化任务。支持快速通过任务名称、任务状态搜索，支持在过滤器中通过设置规则类型、采样比例、创建人筛选自动评测任务。
![Image=642x261](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/c69bb37b1e0544de9daaa2bb6e9e9b74~tplv-goo7wpa0wc-image.image)
在列表中找到并单击指定任务，即可跳转至任务详情页查看详细信息，包括任务的规则、采样比例等基础信息、任务的总览信息、每个实验的运行详情等。
<!-- @cols-width: 125,395,282 -->
| | | | \
|**展示项** |**说明** |**示例** |
|---|---|---|
| | | | \
|基础信息 |展示规则类型、采样比例、任务描述、创建人、数据时间范围、过滤器配置等自动任务的基础信息。 |![Image=1866x713](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/ec9a679ae963494bbe699daa5a1604b4~tplv-goo7wpa0wc-image.image) |
| | | | \
|任务总览 |展示自动评测任务中执行的实验可视化总览统计结果。图表形式展示自动评测任务中配置的评估器、对应的不同评测运行结果，可帮助用户查看不同时间周期内，同一指标的变动趋势。 |![Image=2882x1491](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/97820752d534427e933fff767bdf4420~tplv-goo7wpa0wc-image.image) |
| | | | \
|关联实验 |实验列表展示实验的运行状态等基础信息，点击**详情**即可跳转评测实验详情。 |\
| |在评测实验详情中，支持查看被自动评测任务采集的每条真实输入、输出及评测结果，支持查看 Trace 数据。 |\
| | |\
| |* 点击评估器 Trace，即可查看调用评估器的 Trace。 |\
| |* 点击**详情**，即可查看被自动评测任务采集的 Trace 详情。 |实验列表： |\
| | |![Image=1836x454](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/c6414c7a056847a48e06949e235aee3e~tplv-goo7wpa0wc-image.image) |\
| | |实验详情： |\
| | |![Image=1802x960](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/02b79745cd214db39b6d3e8c94cfa04a~tplv-goo7wpa0wc-image.image) |

### 编辑任务 {#a3db027d}
创建自动评测任务之后，任务默认为**待执行**状态，并在设置的开始时间转为**运行中**状态。

* 在**待执行**、**运行中**或**中止**状态下，你可以随时修改任务，例如修改任务的描述信息、数据时间范围、采样比例等，但不支持修改筛选器。修改自动评测任务之后，新的配置仅对新数据生效。不同任务状态下，数据时间范围的可编辑内容不同：
   * 任务状态为**待执行**：开始时间和结束时间均可以编辑。
   * 任务状态为**运行中**：不支持修改开始时间，只能将结束时间改为当前时间戳之后的时间点。
* 任务状态为**已完成**或**禁用**时**，​**不支持修改包括时间范围内的所有任务配置。

在自动化任务列表中的**操作**列单击编辑，即可编辑自动评测任务。
![Image=554x290](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/803182c71e554691ab71591503cb19cb~tplv-goo7wpa0wc-image.image)
### 修改任务状态 {#908bb8b6}
创建自动评测任务后，任务默认为进行中状态，并根据任务配置进行采样和评测。你也可以按需修改任务的状态。

* 中止或继续任务：在自动化任务列表中的**操作**列单击**中止**或**继续**，即可中止或继续任务。中止后，将停止数据采集与任务运行，之前运行完成的任务结果将不再变更。中止期间上报的 Trace 数据，任务恢复后会追加采样并评测。
* 禁用任务：在操作列中展开折叠菜单，并单击**禁用**，即可禁用任务。禁用后，任务不可恢复运行，请谨慎操作。

![Image=1173x361](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/7dd1d5da73644753a2ffc4202fc769d0~tplv-goo7wpa0wc-image.image)
## 常见问题 {#3ecddbab}
### **为什么我创建的自动评测任务没有开始执行？** {#bed85dc7}
请根据以下步骤排查：

* 确认当下是否已到任务的开始时间。
* 确认过滤条件是否过于严格，导致没有符合条件的 Trace 数据。
* 确认任务状态是否为"进行中"，而不是"中止"或"禁用"。

### **自动评测任务会消耗个人版赠送的 10 次免费评测次数吗？** {#c9979323}
自动评测不消耗免费次数，但会正常消耗资源点。另外，创建自动评测任务时如果试运行，也会正常消耗资源点。
