基于评测实验优化提示词：将评测实验中相对低分的数据作为 Badcase 来优化提示词。模型会根据评测实验中的问题、模型回复、参考答案以及对应评估器得分来定位提示词的问题与不足，定向优化提示词。此方式适用于提示词评测标准明确、已经基于评测问题进行过提示词评测实验的情况。
基于优质的评测集优化提示词：将已准备好的优质评测集作为 Goodcase 来优化提示词。模型会学习和参考评测集中准备好的问题、模型回复和参考答案，判断开发者的预期输出标准，智能优化提示词使实际输出更接近优质评测集的参考答案。此方式适用于提示词质量无法或难以量化、但是有明确参考答案的情况。

说明

智能优化提示词功能正在定向邀测中，若有相关业务需求，可联系商务经理申请加入白名单。

使用限制

限制	说明
提示词限制	为保证智能优化效果，以下类型的提示词不支持发起智能优化：使用了Jinja2 模板包含多模态变量不包含 String 类型变量
评测集限制	你可以从评测集中选择一部分作为 Goodcase 来智能优化 Prompt。选择数据时具体要求如下：数据条数必须大于 10 条。最多可选择 500 条。评测数据必须存在预期输出字段，通常名为 actual_output。
评测实验限制	评测实验状态必须为成功、至少有一条不是满分的结果，且设置了评估器和评估对象。你可以从评测实验数据中选择一部分作为 Badcase 来智能优化 Prompt。选择数据时具体要求如下：数据条数必须大于 10 条，且成功评估的数据不少于 10 条。最多可选择 500 条。已选择的评测数据得分至少有一条不是满分（1.0）。设置了评估器或评估对象。评测实验数据明细中必须存在预期输出字段，通常名为 actual_output。

限制

说明

提示词限制

为保证智能优化效果，以下类型的提示词不支持发起智能优化：

使用了Jinja2 模板
包含多模态变量
不包含 String 类型变量

评测集限制

你可以从评测集中选择一部分作为 Goodcase 来智能优化 Prompt。选择数据时具体要求如下：

数据条数必须大于 10 条。
最多可选择 500 条。
评测数据必须存在预期输出字段，通常名为 actual_output。

评测实验限制

评测实验状态必须为成功、至少有一条不是满分的结果，且设置了评估器和评估对象。
你可以从评测实验数据中选择一部分作为 Badcase 来智能优化 Prompt。选择数据时具体要求如下：
- 数据条数必须大于 10 条，且成功评估的数据不少于 10 条。最多可选择 500 条。
- 已选择的评测数据得分至少有一条不是满分（1.0）。
- 设置了评估器或评估对象。
- 评测实验数据明细中必须存在预期输出字段，通常名为 actual_output。

根据评测集优化提示词

如果你已经有一个优质的评测集，可以基于评测集中的预期输出来智能优化提示词。操作步骤如下：

发起智能优化。
1. 在扣子罗盘左侧导航栏中单击 Prompt 开发。
2. 在 Prompt 详情页面右上角单击智能优化，并选择基于优质的评测集优化提示词。
配置智能优化任务。
填写以下配置，新建一个智能优化任务，并单击确定。
- 评测集：选择作为参考的优质评测集。注意评测集必须已经提交过版本。
- 版本：优质评测集的版本。你也可以根据页面提示查看指定版本评测集的详细信息。
- Prompt 版本：待优化的 Prompt 版本，默认为最新版本。你也可以根据页面提示查看此版本 Prompt 的具体内容。
选择评测集数据。
选择作为 Goodcase 参考的优质评测集数据，并单击下一步。注意评测集数据中需要包含 Prompt 的预期输出，否则模型无法判断优化的预期标准。
配置映射与优化模式。
- 映射：配置 Prompt 中变量、模型回答和参考回答和评测集中字段的对应关系。智能优化任务会自动用评测集中的指定字段作为变量注入到 Prompt，并对比模型回答、参考回答与优质评测集的差距，定向优化评测集。
- 优化模式：拖动滑块，设置更偏向效果还是性价比。
  - 效果优先：算法会尝试更多的优化策略、迭代更多次数，尽力提升优化效果，但是相对的资源消耗会更大。
  - 性价比优先 ：会平衡资源消耗与优化效果，资源消耗相对较少，但可能会损失一定的优化效果。
- 预估值：预览当前优化模式下预计消耗的资源点，仅用于估计成本，具体 Token 消耗以火山引擎账单为准。
单击开始智能优化，扣子罗盘会自动提交智能优化任务。
查看优化报告。
你可以在 Prompt 详情页面的智能优化页签下找到智能优化任务，单击智能优化报告，查看优化详情。关于报告的详细信息，可参考查看智能优化报告。
提交新版本。
如果优化后的效果符合预期，你可以选择将智能优化后的提示词版本同步至提示词新版本。

根据评测实验优化提示词

如果你曾经发起过针对 Prompt 的评测实验，且实验状态为成功，则可以基于评测实验中的低分数据来智能优化提示词。操作步骤如下：

发起智能优化。
1. 在扣子罗盘左侧导航栏中单击 Prompt 开发。
2. 在 Prompt 详情页面右上角单击智能优化，并选择基于评测结果优化提示词。
  除此之外，你也可以在评测实验的详情页面快速发起智能优化。

  ![Image=2342x1415](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/78cf2f4d376b44c2b00831e9ebebfe64~tplv-goo7wpa0wc-image.image)

配置智能优化任务。
选择作为参考的评测实验，并单击确定。注意评测实验状态必须为成功、至少有一条不是满分的结果，且设置了评估器及评估对象。
说明

扣子罗盘支持通过评估器 Prompt 来自行定义得分区间。但是如果要根据评测实验优化提示词，扣子罗盘建议你选择评分范围为默认范围（0.0~1.0）的实验，以获得更好的优化效果。
选择评测实验数据。
选择作为 Badcase 参考的评测实验结果数据，数量范围为 10~500 条，并单击下一步。
设置映射与优化模式。
- 映射：配置 Prompt 中变量、模型回答和参考回答和评测集中字段的对应关系。智能优化任务会自动用评测集中的指定字段作为变量注入到 Prompt，并对比模型回答、参考回答与优质评测集的差距，定向优化评测集。
- 优化模式：拖动滑块，设置更偏向效果还是性价比。
  - 效果优先：算法会尝试更多的优化策略、迭代更多次数，尽力提升优化效果，但是相对的资源消耗会更大。
  - 性价比优先 ：会平衡资源消耗与优化效果，资源消耗相对较少，但可能会损失一定的优化效果。
- 预估值：预览当前优化模式下预计消耗的资源点，仅用于估计成本，具体消耗可参考火山引擎账单。
单击开始智能优化，扣子罗盘会自动提交智能优化任务。
查看优化报告。
你可以在 Prompt 详情页面的智能优化页签下找到智能优化任务，单击智能优化报告，查看优化详情。关于报告的详细信息，可参考查看智能优化报告。
提交新版本。
如果优化后的效果符合预期，你可以选择将智能优化后的提示词版本同步至提示词新版本。

查看智能优化结果

查看任务列表和详情

成功创建智能优化任务之后，你可以在 Prompt 详情页面的智能优化页签下查看该 PromptKey 发起过的智能优化任务。支持根据任务名称和状态进行快速筛选，你也可以通过关联的评测实验和评测集来过滤出对应的优化任务。

在操作列单击详情，可查看任务的配置细节，包括评测实验、优化配置等信息。