在 AI 应用场景中,离线评测往往难以全部覆盖线上用户真实的问题场景,需要回流线上用户的真实请求数据,补充评测集或训练集,用于 AI 应用、Prompt 策略或模型的效果评测,便于后续的效果优化迭代。
扣子罗盘支持将 Trace 数据手动沉淀到评测集,提升数据质量,便于后续开展评测实验,优化 AI 应用表现。例如将线上真实的高质量问答对数据,沉淀为基准评测集;将评测分数低、耗时长、耗费 Tokens 多、应用输出不符合预期等类型的 Badcase,分类沉淀为问题数据集。高质量的基准评测集后续可用于验证新版本应用的效果。
回流 Trace 数据之前,建议先了解以下限制:
|
限制 |
说明 |
|---|---|
|
单次回流的数据量 |
每次回流最多选择 200 条 Trace 数据。如需导入更多数据,建议分批次进行。 |
|
单条 Trace 数据大小 |
上限为 200KB,超出上限的 Trace 数据会回流失败。 |
|
数据类型 |
配置 Trace 数据字段和评测集字段的映射关系时,应确认写入前后的数据类型完全一致,否则可能因数据类型不匹配导致数据回流失败。例如回流的 Trace 字段是 |
|
评测集上限 |
每个评测集行数最多 5000 行。如果 Trace 数据导入期间并发写入了其他数据,使评测集行数超过 5000 行,会导致数据回流失败。建议控制评测集的写入并发操作。 |
页面自动跳转至Trace添加到评测集页面,你需要在页面左侧确认样本 span 是否准确,确认无误后根据页面提示配置回流规则。
|
配置 |
说明 |
|---|---|
|
目标评测集 |
Trace 数据要写入的评测集。支持写入一个已有的评测集,或者写入新的评测集。 |
|
导入方式 |
Trace 数据导入评测集的方式,支持追加数据或全量覆盖。
|
|
字段映射 |
选择需要回流的 Trace 数据字段和评测集字段的映射关系。你可以在左侧确认查看样本 span 的字段名称及字段值,选择对应的字段进行配置。
|
配置示例如下:
配置回流规则时,如果导入方式设置为追加数据,应确保导入 Trace 数据后,评测集的数据行数不超过容量上限(5000 行)。
如果页面提示超出评测集上限,你可以尝试以下方案。
说明
进行全量覆盖操作后,现有的评测数据将被覆盖。请务必谨慎执行此操作,以避免数据丢失。
通过.+字段名的方式下钻提取特定字段内容,例如:
input.query.content信息,只需要输入input.query.content 即可回流。Input.name信息外,还希望回流Input里的description信息和Tags里的tokens信息,只需要新增字段映射行,分别输入Input.description和Tags.tokens 即可。