智能合成评测数据旨在帮助大模型应用开发者与评测人员解决高质量评测数据不足的问题。它支持你通过描述业务场景,快速、低成本地一键生成可直接用于评测实验的问答数据集。
智能合成评测数据是一项数据生成服务,旨在帮助你快速、低成本地打造高质量的评测数据。该功能以已有的评测数据作为种子数据,借助 LLM 能力来智能合成更高质量的多样本数据,解决评测数据匮乏或质量不佳的问题。适用场景如下:
在开始使用本功能前,请确保你已满足以下条件:
添加智能合成数据:
智能合成页面:
填写合成场景集来源,并单击下一步。
|
配置项 |
说明 |
|---|---|
|
合成场景 |
固定为基于种子数据泛化,表示从真实数据中学习本质特征,从而合成数据。 |
|
场景和用途描述 |
描述你的业务场景与评测数据用途。 |
|
种子数据 |
选择用于智能合成的评测集作为种子数据,用于模型分析与学习。默认选择草稿版本,你也可以切换为其他版本。 说明 建议种子数据至少包含 20 条样本,数据内容越丰富,合成数据质量越高。 |
填写合成样本配置,并单击开始合成。
|
配置项 |
说明 |
|---|---|
|
需合成的列 |
需要通过此功能智能合成的评测集列。页面会展示评测集中已有的列名,你需要选择待合成的列名,或者单击添加列来合成新的列,并填写描述和合成要求,帮助模型理解如何合成新的数据。
说明
|
|
合成样本数 |
合成的样本数量。取值范围为 1~1000 之间的正整数。 |
智能合成的评测数据默认不保存到评测集,你可以仔细查看数据质量,对于合成效果不错、符合评测需求的数据,你可以选择手动将其导出到评测集,以供评测实验使用。
在智能合成详情页数据项页面选择需要导出的数据。
在页面右上角单击导出所选数据。
如果计划导出智能生成的全部数据,可以直接在页面右上角单击导出全部数据。
填写以下配置,并单击确定。
|
配置项 |
说明 |
|---|---|
|
目标评测集 |
用于接收智能合成数据的评测集。支持导出到新的评测集或导出到一个已有的评测集。 |
|
更新模式 |
智能合成数据在评测集的保存方式:
|
|
字段映射 |
配置智能合成数据和目标评测集字段的映射关系。注意字段的数据类型应完全一致。 |
成功导出后,你可以在目标评测集的评测集页签中查看到已添加的智能合成数据。