确保核心链路通畅：评测集需要覆盖 AI Agent 的各个功能点，尽量模拟真实的用户交互、设计典型对话，以确保 AI Agent 的表现符合产品设计和业务需求。
评估范围全面：评测集应该包含不同难度、不同领域的数据，以便全面评估模型的性能。如果包含多种任务，需要确保各个类别之间的数据量均衡，保证每种任务都有足够的样本数据。
覆盖极端场景和异常输入：尝试通过评测集识别出 AI Agent 响应质量不符合预期的场景，同时也需要模拟异常输入、超限输入、违规输入的情况，判断 AI Agent 在各种场景下是否都可以按照预期执行任务。
确保覆盖异常案例：对于用户反馈不合理的 AI Agent 响应案例，将其添加到测试集中，确保 AI Agent 的新版本已解决这些问题，可以按预期执行任务。

构建评测集

评测集构建包含创建评测集和添加测试数据两个操作。

步骤一：创建评测集

参考以下步骤，创建评测集。扣子罗盘支持 本地上传 和 手动导入 两种方式来创建评测集。当前步骤介绍 手动导入 的方式。关于 本地上传 的方式，详情参见导入和导出评测集。

登录扣子罗盘，在左侧导航栏顶部，选择你的工作空间。
在左侧导航栏，选择评测 > 评测集，然后把鼠标移动到 + 新建评测集 按钮上，在下拉菜单中单击 +新建评测集。

在新建评测集页面，参考以下信息配置评测集的数据列信息。单击 +添加列 可以添加自定义列。数据列信息配置完成后，单击创建。

配置项		说明
基本信息	名称	输入一个评测集名称。
基本信息	描述	提供一个评测集描述。
配置列	选择场景一键快速配置	你可以选择以下场景。本文仅介绍理想输出评测集的场景。理想输出评测集：（默认）用于评测 LLM 或 AI Agent 实际输出与预期结果的匹配程度。工作流评测集：用于评测扣子工作流。详情参见评测扣子工作流。轨迹评测集：用于评测 AI Agent 的轨迹（Trajectory）。详情参见通过数据回流评测行程规划 Agent 的轨迹。
	input	指定输入样本列配置：名称：输入列名称。必须以英文字母开头，支持添加字母、数字和下划线。数据类型：选择一种数据类型。通过校验数据类型，避免导入数据不匹配的情况，保证评测的数据质量；同时可以提高数据的消费和存储成本。查看格式：选择一种渲染评测数据的格式，提高数据的可读性和维护性。描述信息：提供描述信息，帮助评测对象理解这个输入数据。
	reference_output	指定数据集中期望输出列配置：名称：输入列名称。必须以英文字母开头，支持添加字母、数字和下划线。数据类型：选择一种数据类型。扣子罗盘通过校验数据类型，避免导入数据不匹配的情况，保证评测的数据质量；同时可以提高数据的消费和存储成本。关于评测集数据类型的详细说明，可参考评测集数据类型。查看格式：选择一种渲染评测数据的格式，提高数据的可读性和维护性。描述：提供预期输出的补充信息，可作为评估时的参考标准。

系统会根据指定的数据列配置创建一个草稿版本的评测集。

步骤二：添加测试数据

接下来，就可以在已创建的评测集中添加数据了。扣子罗盘支持 本地上传、手动导入 和 智能合成 三种方式来添加测试数据。当你需要批量上传测试数据时，选择本地上传方式。

说明

本文档以文本数据为例。关于多模态数据，参阅向评测集添加多模态数据。

在评测集详情页面，选择添加数据 > 手动添加来添加测试数据。
在添加数据页面，输入第一组测试数据，然后单击 + 添加数据项添加更多测试数据。最后，单击添加完成数据添加。

在评测集详情页面，选择添加数据 > 本地导入来添加测试数据。
在 导入本地数据 页面，选择 导入方式，然后上传要导入的测试数据文件。
你可以选择以下导入方式：
- 数据更新与追加：根据行 ID 和列映射更新原数据或向原数据追加新数据。
  注意
  
  当你使用 数据更新与追加 方式导入时，导入文件必须包含 __system_internal_id__ 列。系统将根据该列的 ID 值执行以下操作：
  - 更新数据：如果文件中的 __system_internal_id__ 与评测集中某行数据的 ID 匹配，系统将使用文件中的数据更新该行。
  - 追加数据：如果文件中的 __system_internal_id__ 在评测集中不存在，系统会将其作为新数据添加，并为该行自动生成一个全新的 ID。
  - 处理重复 ID：如果导入文件中存在重复的 __system_internal_id__，系统将以最后一条出现的数据为准进行更新或追加。
- 全量覆盖：把原数据全部替换为新数据。
  上传数据前，建议你单击 下载模版，并使用模版中的数据格式来上传测试数据。
当完成数据导入后，将文件中的数据列与评测集的数据列进行映射。
注意
- 如果上传的文件包含评测集中不存在的数据列，系统会自动将该列添加至评测集。
- 由于 CSV、Excel 文件不包含数据类型信息，上传时，扣子罗盘会根据文件中每行的数据内容来校验其数据格式。如果校验不通过，该行数据将不会被上传。
  例如，CSV 文件中有一列 A，包含两行数据 10 和 helloworld。在创建评测集时，你指定了列 B 的数据类型为 int。当添加数据时，将 CSV 中的列 A 映射到评测集的列 B，即将 CSV 的 A 列数据导入到评测集的 B 列。在上传校验过程中，由于 B 列的数据类型为 int，helloworld 这一行数据将无法导入。
如果导入方式为数据更新与追加，你需要确保：
- 导入的数据列中包含 __system_internal_id__ 列。
- 列映射关系符合预期。
  
  如果导入方式是 数据更新与追加，你需要确保列映射关系符合预期。
单击导入。导入完成后，扣子罗盘会弹出一个窗口，向你显示数据上传结果。
对于上传失败的数据行，你可以根据失败原因，修改数据并重新上传。下图显示了由于数据类型不匹配导致上传失败的情况。

详情参阅智能合成评测数据。

修改评测集

修改评测集基础信息

方法一：在评测集列表页面，选中目标评测集，然后单击修改来修改评测集的名称和描述。
方法二：在评测集详情页面，单击评测集名称旁边的编辑图标修改评测集名称和描述。

修改数据列

你可以在评测集草稿状态下，修改评测集的列配置。
在评测集详情页面，单击编辑列。然后，在列配置页面，删除、增加列或修改列的数据类型。

注意

仅当**评测集草稿数据为0**时，方可修改数据类型。

修改评测集数据

你可以在评测集草稿状态下，修改评测集数据。

说明

草稿版本的评测集数据修改不影响已提交的历史版本。如果历史版本的评测集关联了实验，也可以根据历史版本的实验回溯原版本数据。

新增数据项：在评测集详情页面，单击添加数据。详细说明参考步骤二：添加测试数据。
修改数据项：在评测集详情页面，单击目标数据项操作列下的编辑，然后修改数据并保存。
删除数据项：
- 单条删除：在评测集详情页面，单击目标数据项操作列下的删除，即可删除该条数据。
- 批量删除：评测集详情页面，先单击批量操作，然后选择要删除的数据项，再单击删除即可删除所选数据项。

管理评测集版本

评测集提供了版本管理能力，用于满足数据驱动型团队持续迭代评测数据以提高数据质量。
评测集创建后默认为草稿状态。在不同评测阶段，测试集的版本作用也不同：

数据完备阶段：完成测试数据导入后，可提交首个测试版本并关联实验任务，系统将基于该版本进行全量评估。
评估验证阶段：通过实验报告分析当前版本的数据表现，定位待优化数据样本。
优化升级阶段：根据评估结果修正数据集后，提交升级版本并重新关联实验，开启新一轮验证循环。

这种版本机制通过"提交-评估-优化"的递进式循环，确保评测集持续满足评估迭需求。

新建评测集版本

在添加测试数据后，单击提交新版本。
在弹出的对话框内容，确认版本号后，再单击提交。

查看评测集历史版本

在评测集详情页，单击历史版本。版本记录区域会显示全部已提交的版本，单击一个目标历史版本，就可以切换到该评测集的历史版本。

说明

不支持修改历史版本的测试集数据。

导入和导出评测集

扣子罗盘支持将 Trace 数据手动沉淀到评测集。通常情况下，回流到评测集中的数据还需要经过二次处理，例如将线上真实的高质量问答对数据，沉淀为基准评测集；将评测分数低、耗时长、耗费 Token 多、应用输出不符合预期等类型的 Badcase，分类沉淀为问题数据集。
在这种场景下，你需要先把整个评测集导出到本地文件，经过二次处理后再把文件导入为评测集。

把本地文件导入为评测集

说明

在上传文件时，请遵循以下限制：

支持格式：.csv、.xlsx、.xls、.jsonl、.zip（.zip 文件用于多模态评测集，详情参见向评测集添加多模态数据）。
文件数量：一次只能导入一个文件。
文件大小：最大 500 MB。
数据条数：最多 5000 条。
自定义列：最多 50 个。
编码要求：CSV 文件仅支持 UTF-8 编码。

登录扣子罗盘，在左侧导航栏顶部，选择你的工作空间。
在左侧导航栏，选择评测 > 评测集，然后把鼠标移动到 + 新建评测集 按钮上，在下拉菜单中单击 +新建评测集。
在 导入本地文件 页面的 上传文件 区域，单击上传区域上传或直接把文件拖拽到上传区域。为确保数据格式正确，建议你先单击 下载模版，并按照模版文件的格式整理数据后再上传。文件上传完成后，扣子罗盘会自动填充评测集名称、各个列名称和数据类型。
在 导入本地文件 页面的 基本信息 区域，输入评测集的名称和描述，并确认 配置列 区域的预览信息。确认无误后，单击 创建并导入。
注意

扣子罗盘默认会把多模态和轨迹的 数据类型 填充为 String，因此：
- 对于多模态数据，你必须手动把 数据类型 设置为 多模态。
- 对于轨迹数据，你必须手动把 数据类型 设置为轨迹。
等待几秒钟后刷新页面。你可以看到已经被导入的数据项。
数据内容确认无误后，单击右侧的 提交新版本 按钮。在弹出的窗口中，输入版本号和版本说明，然后单击提交。

把评测集导出为本地文件

登录扣子罗盘，在左侧导航栏顶部，选择你的工作空间。
在左侧导航栏，选择评测 > 评测集。
找到你需要导出的评测集。在操作列单击详情。
在评测集的详情页，单击右侧的 … 按钮，在下拉菜单中选择需要导入的文件格式。
在弹出的窗口中，选择需要导出的评测集版本，然后单击导出。
文件导出完成后，在右上角的弹窗中单击 下载文件 把文件下载到本地。

后续操作

新建实验

你可以在评测数据构建完成并提交版本后，直接从评测集发起实验进行评测。
在评测集详情页，单击 + 新建实验。关于实验的配置过程，参考管理实验。

关联实验

关联实验模块提供了一个聚合视图，展示与同一评测集关联的所有评测实验。你可以在此页面查看当前实验列表中各个实验在不同评估器指标下的得分。
如果需要更深入的对比分析，你可以选择多个实验并发起实验对比，以获得详细的比较结果和洞察。该方式可以帮助你更好地理解实验之间的差异和性能表现，从而支持更精准的优化和决策。详情请参考多实验对比。

数据类型	说明	示例
string	字符串，可用于存储任何数据类型。	“helloworld”
int	整数，等同于 int64。	1
float	浮点数，等同于 float64。	1.23
boolean	布尔值。	true
Object	对象数据类型，典型适用场景包括：评测对象有相对固定的 IDL（接口定义语言）。线上 Trace 回流时，需要确保流入评测集的数据的规整，避免数据污染。配置实验时，需要下钻到 Object 对象的某个内部字段。	`{ "content": "hello world", "user_name": "alice" }`
Array	数组数据类型，数组内部的 Item 类型支持设置为： String Int Float Boolean Object	[1,2,3,4,5]
多模态	多模态数据类型，可以是图片、音频或视频，也可以是文字、图片、音频与视频的混合。多模态类型的字段固定为 Array	`[ { "type": "text", "text": "What is in this image?" }, { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" } }， { "type": "audio_url", "audio_url": { "url": "https://example.com/audio" } }， { "type": "video_url", "video_url": { "url": "https://example.com/video" } } ]`
轨迹	轨迹（Trajectory）数据类型。轨迹是指 AI Agent 在任务执行过程中生成的结构化时序数据，数据格式为 JSON。轨迹完整记录了从接收用户指令开始，Agent 在多轮交互中进行的思考、行动和观察的全链路历史。详情参见通过数据回流评测行程规划 Agent 的轨迹。	详情参见通过数据回流评测行程规划 Agent 的轨迹。

管理评测集

评测集介绍

评测集限制

评测集设计原则

构建评测集

步骤一：创建评测集

步骤二：添加测试数据

修改评测集

修改评测集基础信息

修改数据列

修改评测集数据

管理评测集版本

新建评测集版本

查看评测集历史版本

导入和导出评测集

把本地文件导入为评测集

把评测集导出为本地文件

后续操作

新建实验

关联实验

相关信息

评测集数据类型