本文档介绍在扣子罗盘中评测扣子工作流的操作步骤。
在扣子罗盘评测工作流时,你可以将工作流的线上 Trace 数据回流为评测集,也可以本地上传构造好的 CSV 文件、或者手动逐条创建评测数据。扣子罗盘会调用扣子执行工作流 OpenAPI 来获取工作流的输出结果,指定的评测集会作为 API 的请求参数。
例如,你搭建了一个抖音爆款文案创作的工作流,希望验证该工作流生成的文案是否具有创造性和独特性。本文将演示如何通过评测集、LLM 评估器和实验来对该工作流进行评测。
在评测场景中,评测集是一个精心设计的标准化测试数据集,通常包含输入样本和预期输出(可选)。输入样本作为评估对象的输入数据,预期输出提供了评估基准。在工作流评测中,准备评测集的本质是在构造执行工作流 OpenAPI 的请求数据,以便扣子罗盘成功调用 API 获取工作流的执行结果。你需要先新建评测集并声明执行工作流 OpenAPI 请求的数据结构,再将构造好的请求数据上传至评测集。
登录扣子罗盘,在左侧导航栏顶部,选择一个工作空间。
在左侧导航栏,选择评测 > 评测集,然后单击 + 新建评测集。
在新建评测集页面,填写评测集名称和描述。
在配置列区域右侧,选择 Coze 工作流。
该操作可一键将评测集的列调整为兼容执行工作流 OpenAPI 的数据格式。
填写配置列,声明执行工作流 OpenAPI 请求的数据结构,并单击创建。
参考以下信息配置评测集的输入数据列和输出列信息。创建成功后,系统会根据指定的数据列配置创建一个草稿版本的评测集。
|
列名 |
配置说明 |
|---|---|
|
parameter |
工作流开始节点的输入参数,你可以在指定工作流的编排页面查看参数列表。parameter 必须为 Object 格式,且必须包含所有必选参数、参数名称与类型和工作流完全一致。 |
|
bot_id |
工作流需要关联的智能体 ID。部分工作流执行时需要指定关联的智能体,例如存在数据库节点、变量节点等节点的工作流。 |
|
ext |
用于指定一些额外的字段,例如某些插件会隐式用到的经纬度等字段。目前仅支持latitude、longitude 和 user_id。 |
|
app_id |
该工作流关联的应用的 ID。部分工作流执行时需要指定关联的应用,例如存在数据库节点、变量节点等节点的工作流。 |
|
reference_output |
预期理想输出,可作为评估时的参考标准。 |
工作流设计:
parameter 列配置:
检索出工作流日志。
在观测 > Trace 页面,设置过滤条件,检索出扣子工作流日志。
添加到评测集。
点击添加到评测集,选择需要回流的 Trace Span 节点,再次确认添加到评测集。
查看评测集样本 Span,配置映射的字段。
注意应确保字段映射中,左值 Span 变量的数据结构能够对应右值评测集列的数据结构,否则评测集将会根据1 创建评测集时声明的校验规则(如字段必填)将不符合数据规范拦截下来。这可以帮你规范化评测集,过滤掉 Trace Log 中的噪音数据,避免在后续评测中引入额外的 Token 成本。
点击预览并校验,查看回流到评测集后的效果。
单击开始导入。
进入此评测集的详情页,即可看到测试数据已经被成功回流至草稿版本,单击提交新版本。
在评测过程中,评估器充当裁判的角色,通过量化评测对象的输出结果来评估其表现。在发起评测实验前,至少要创建一个评估器。在执行评测实验时,评估器会根据 Prompt 中预设的标准和规则对评估对象的输出进行打分,并提供得分原因。得分范围从 0.0 到 1.0,1.0 表示完全满足评分标准,0.0 表示完全不满足评分标准。
说明
在调试评估器时,会产生 Token 消耗。
说明
在创建评测实验时,只能使用已提交的评估器。
在准备好评测集和评估器后,就可以发起实验来测试扣子工作流。每次评测实验仅支持评测一个工作流的一个指定版本,如需对比多个工作流版本,需要分别创建评测实验。
在左侧导航栏,选择评测 > 实验,然后单击 + 新建实验。
输入一个实验名称,然后单击下一步: 评测集。
选择已创建的评测集,并选择要使用的评测集版本,然后单击下一步:评测对象。
配置评测对象,配置完成后单击下一步:评估器。
|
配置 |
说明 |
|---|---|
|
类型 |
评测对象的类型,此处应选择 Coze 工作流。 |
|
工作流名称 |
选择待评测的工作流,仅支持选择当前工作空间资源库内已发布的工作流,不支持对话流。 |
|
版本 |
指定工作流待评测的版本。 |
|
字段映射 |
配置评测对象和评测集的字段映射关系。
说明 工作流的所有必选输入参数均应映射到对应的评测集字段,否则评测实验可能执行失败。 |
单击添加评估器,选择已创建的评估器和版本,然后将评测集的字段、评测对象的实际输出与评估器的参数关联,确保评估器准确获取数据并执行评估,最后单击确认实验配置。
检查实验配置,确认无误后,单击发起实验。
发起实验后,你可以刷新实验页面,查看评估进度。
在评估器执行完所有评估任务后,你可以在实验页面查看实验报告。通过实验报告来判断评估对象是否符合预期。
在数据明细页面,你可以查看评估器对每个测试数据的执行结果的评分,以及评分的具体原因。
如果某个测试数据的评估器自动打分不准确,你可以将鼠标悬浮至评分上,然后点击出现的人工校准图标。在弹出的页面中输入修正的分数和原因。
在实验详情页面,单击指标统计页签查看实验数据报告。
扣子推荐你在配置评测集字段时,对于 parameter 等 Object 类型的字段,可以直接导入 JSON 格式的工作流的输入参数,提升评测集的构建效率。输入 JSON 之后,系统会自动解析字段,并以此定义评测集字段。操作方式如下:
在新建评测集的页面,找到 Object 类型的字段(例如 parameter),单击导入样例数据。
将复制好的 JSON 填入样例区域,单击提取数据结构。
查看导入效果,并确认字段配置,例如字段名、数据类型、是否必选等。