评测/评测集/管理评测集
管理评测集
更新于: 2026-06-24 15:45:09
在评测场景中,评测集是一个精心设计的标准化测试数据集,用于系统化地评测 AI Agent 的性能。评测集通常包含输入样本和预期输出。输入样本作为评估对象的输入数据,预期输出提供了评估基准。在开始执行评测实验前,需要先准备好评测集。本文指导你在扣子罗盘中创建和管理评测集。
评测集是用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果,帮助开发者验证评估对象的效果。
对于评测集中通常包含以下列:
设计评测集之前,你需要了解评测集文件的以下限制:
设计评测集的用户问题时,应注意:
评测集构建包含创建评测集和添加测试数据两个操作。
参考以下步骤,创建评测集。扣子罗盘支持 本地上传 和 手动导入 两种方式来创建评测集。当前步骤介绍 手动导入 的方式。关于 本地上传 的方式,详情参见 导入和导出评测集。
登录 扣子罗盘,在左侧导航栏顶部,选择你的工作空间。
在左侧导航栏,选择评测 > 评测集,然后把鼠标移动到 + 新建评测集 按钮上,在下拉菜单中单击 +新建评测集。
在新建评测集页面,参考以下信息配置评测集的数据列信息。单击 +添加列 可以添加自定义列。数据列信息配置完成后,单击创建。
|
配置项 |
说明 |
|
|---|---|---|
|
基本信息 |
名称 |
输入一个评测集名称。 |
|
描述 |
提供一个评测集描述。 |
|
|
配置列 |
选择场景一键快速配置 |
你可以选择以下场景。本文仅介绍理想输出评测集的场景。
|
|
input |
指定输入样本列配置:
|
|
|
reference_output |
指定数据集中期望输出列配置:
|
系统会根据指定的数据列配置创建一个草稿版本的评测集。
接下来,就可以在已创建的评测集中添加数据了。扣子罗盘支持 本地上传、手动导入 和 智能合成 三种方式来添加测试数据。当你需要批量上传测试数据时,选择本地上传方式。
说明
本文档以文本数据为例。关于多模态数据,参阅 向评测集添加多模态数据 。
注意
当你使用 数据更新与追加 方式导入时,导入文件必须包含 __system_internal_id__ 列。系统将根据该列的 ID 值执行以下操作:
__system_internal_id__ 与评测集中某行数据的 ID 匹配,系统将使用文件中的数据更新该行。__system_internal_id__ 在评测集中不存在,系统会将其作为新数据添加,并为该行自动生成一个全新的 ID。__system_internal_id__,系统将以最后一条出现的数据为准进行更新或追加。注意
10 和 helloworld。在创建评测集时,你指定了列 B 的数据类型为 int。当添加数据时,将 CSV 中的列 A 映射到评测集的列 B,即将 CSV 的 A 列数据导入到评测集的 B 列。在上传校验过程中,由于 B 列的数据类型为 int,helloworld 这一行数据将无法导入。__system_internal_id__ 列。详情参阅 智能合成评测数据。
你可以在评测集草稿状态下,修改评测集的列配置。
在评测集详情页面,单击编辑列。然后,在列配置页面,删除、增加列或修改列的数据类型。
注意
仅当**评测集草稿数据为0**时,方可修改数据类型。
你可以在评测集草稿状态下,修改评测集数据。
说明
草稿版本的评测集数据修改不影响已提交的历史版本。如果历史版本的评测集关联了实验,也可以根据历史版本的实验回溯原版本数据。
评测集提供了版本管理能力,用于满足数据驱动型团队持续迭代评测数据以提高数据质量。
评测集创建后默认为草稿状态。在不同评测阶段,测试集的版本作用也不同:
这种版本机制通过"提交-评估-优化"的递进式循环,确保评测集持续满足评估迭需求。
在评测集详情页,单击历史版本。版本记录区域会显示全部已提交的版本,单击一个目标历史版本,就可以切换到该评测集的历史版本。
说明
不支持修改历史版本的测试集数据。
扣子罗盘支持将 Trace 数据手动沉淀到评测集。通常情况下,回流到评测集中的数据还需要经过二次处理,例如将线上真实的高质量问答对数据,沉淀为基准评测集;将评测分数低、耗时长、耗费 Token 多、应用输出不符合预期等类型的 Badcase,分类沉淀为问题数据集。
在这种场景下,你需要先把整个评测集导出到本地文件,经过二次处理后再把文件导入为评测集。
说明
在上传文件时,请遵循以下限制:
注意
扣子罗盘默认会把多模态和轨迹的 数据类型 填充为 String,因此:
你可以在评测数据构建完成并提交版本后,直接从评测集发起实验进行评测。
在评测集详情页,单击 + 新建实验。关于实验的配置过程,参考管理实验。
关联实验模块提供了一个聚合视图,展示与同一评测集关联的所有评测实验。你可以在此页面查看当前实验列表中各个实验在不同评估器指标下的得分。
如果需要更深入的对比分析,你可以选择多个实验并发起实验对比,以获得详细的比较结果和洞察。该方式可以帮助你更好地理解实验之间的差异和性能表现,从而支持更精准的优化和决策。详情请参考多实验对比。
创建评测集时,你需要为每个字段设置数据类型,扣子罗盘通过校验数据类型,避免导入数据不匹配的情况,保证评测的数据质量;同时可以提高数据的消费和存储成本。
目前扣子罗盘评测集支持以下常见类型的数据字段:
|
数据类型 |
说明 |
示例 |
|---|---|---|
|
string |
字符串,可用于存储任何数据类型。 |
“helloworld” |
|
int |
整数,等同于 int64。 |
1 |
|
float |
浮点数,等同于 float64。 |
1.23 |
|
boolean |
布尔值。 |
true |
|
Object |
对象数据类型,典型适用场景包括:
|
|
|
Array |
数组数据类型,数组内部的 Item 类型支持设置为:
|
[1,2,3,4,5] |
|
多模态 |
多模态数据类型,可以是图片、音频或视频,也可以是文字、图片、音频与视频的混合。 |
|
|
轨迹 |
轨迹(Trajectory)数据类型。 |
详情参见 通过数据回流评测行程规划 Agent 的轨迹。 |