扣子扣子编程扣子罗盘资源

文档反馈

新功能发布记录

什么是扣子罗盘

体验扣子罗盘

把 OpenClaw 的 Trace 上报到扣子罗盘

提示词管理

评测

观测

应用注册

SDK

实践教程

基于 Trace 自动评测 Agent

通过 Code 评估器评测 Agent

评测多模态（图片） Agent

评测多模态（视频）Agent

评测扣子工作流

评测扣子智能体

轨迹评测

评测扣子智能体

更新于: 2026-06-24 15:45:09

本文档介绍在扣子罗盘中评测扣子智能体的操作步骤。

场景描述

当你在扣子编程搭建智能体（如翻译助手、客服机器人、代码生成工具等）后，需要系统性评估其功能表现（如翻译准确性、回答相关性、代码正确性等）以验证是否符合预期时，可通过扣子罗盘提供的评测功能，对智能体进行标准化、量化的质量检测。
例如，你开发了一个翻译助手智能体，希望验证其翻译结果的准确性，本文将演示如何通过评测集、LLM 评估器和实验来对该智能体进行评测。

准备工作

已在扣子编程搭建翻译助手智能体，详细步骤参考搭建一个低代码智能体。
已准备评测数据，本文将使用以下评测数据作为示例：
翻译助手评测 .csv

操作步骤

步骤一：创建评测集

访问扣子罗盘，在左侧导航栏顶部，选择目标工作空间。
在左侧导航栏，选择评测 > 评测集，单击右上角的 + 新建评测集。
在新建评测集页面，输入评测集的名称，配置评测集的输入数据列和输出列信息，然后单击创建。
添加测试数据。
扣子罗盘支持本地上传和手动导入两种方式来添加测试数据。本文以本地上传方式为例，将已准备的评测数据批量上传至评测集。
在评测集详情页面，选择添加数据 > 本地导入，导入准备工作中准备好的测试数据，并配置列映射关系，单击导入。
单击提交新版本。

步骤二：创建评估器

在左侧导航栏选择评测 > 评估器，单击 + 新建评估器 > LLM评估器。
在评估器模板页面，扣子罗盘提供了多个预置的模板，如果没有合适的模板，你也可以单击自定义创建LLM评估器创建评估器。
在本场景中，你需要评估翻译助手智能体的翻译准确性，因此选择选择内容质量 > 正确性模板，单击应用。
修改评估器的名称和模型，单击调试，测试一下评估器效果。
说明

在调试评估器时，会产生 Token 消耗。

在弹出的预览与调试页面，输入一组测试数据，然后单击运行查看评估效果是否符合预期。
单击创建，单击提交新版本。完成评估器创建并提交评估器版本。
说明

在创建评测实验时，只能使用已提交的评估器。

步骤三：发起实验

在准备好评测集和评估器后，就可以发起实验来测试翻译助手智能体的翻译准确性了。

在左侧导航栏，选择评测 > 实验，然后单击 + 新建实验。
输入一个实验名称，然后单击下一步: 评测集。
选择已创建的评测集，并选择要使用的评测集版本，然后单击下一步：评测对象。
评测对象选择 Coze 智能体，然后选择要评测的智能体和版本，再通过字段映射的方式选择评测集中的哪列数据作为智能体的输入传递给智能体，最后单击下一步：评估器。
单击添加评估器，选择已创建的评估器和版本，然后将评测集的字段、评测对象的实际输出与评估器的参数关联，确保评估器准确获取数据并执行评估，最后单击确认实验配置。
检查实验配置，确认无误后，单击发起实验。
发起实验后，你可以刷新实验页面，查看评估进度。

步骤四：分析实验结果

在评估器执行完所有评估任务后，你可以在实验页面查看实验报告。通过实验报告来判断评估对象是否符合预期。

查看评测结果

在数据明细页面，你可以查看评估器对每个测试数据的执行结果的评分，以及评分的具体原因。
如果某个测试数据的评估器自动打分不准确，你可以将鼠标悬浮至评分上，然后点击出现的人工校准图标。在弹出的页面中输入修正的分数和原因。

查看实验报告

在实验详情页面，单击指标统计页签查看实验数据报告。

评测扣子工作流

实时评测行程规划 Agent 的轨迹

步骤一：创建评测集

步骤二：创建评估器

步骤三：发起实验

步骤四：分析实验结果

查看评测结果

查看实验报告