你可以在低代码智能体的编排页面为智能体选择一个合适的大模型，例如对于长文生成或优化相关的智能体选择一个支持长文本的大模型、对于具有复杂业务逻辑的智能体选择一个支持 Function call 的大模型。选择模型并完成智能体的技能、知识等设置后，你也可以切换成不同的模型，测评各个模型在同一个智能体中的效果，选择最合适的模型。
各个订阅套餐支持的模型资源，请参考模型服务。

切换 Responses API

Responses API 是模型新推出的 API，不仅延续了 Chat API 的易用性，还原生支持高效的上下文管理和前缀缓存。适用于需要多步推理等复杂任务链处理的场景。
你可以在协议类型中选择 Chat API 或 Responses API，用于指定智能体与大模型交互时使用的协议。当选择 Responses API 后，扣子编程将切换至大模型的 Responses API 进行调用，其模型参数设置及对话交互均基于该协议。仅部分模型支持切换为 Responses API，具体支持的模型列表请参见模型服务。

核心优势

原生上下文管理：在多轮调用模式下，系统能够自动管理上下文，持续追踪和记忆之前的对话内容，使对话更加连贯自然，大大提升了智能交互体验。
成本优化：支持前缀缓存，通过缓存提示词，将角色设定、背景描述等高频不变的初始化信息进行缓存，后续调用模型时无需重复发送此信息给模型，即可自动命中初始化信息的缓存。从而加快响应速度并降低使用成本，尤其适用于具有重复提示或标准化开头文本的应用。
状态保持：默认开启存储功能，可自动记录输入与输出消息，在不同轮次间可靠地维持推理状态与工具上下文，为复杂任务链的执行提供保障。

特色配置项

Responses API 模型支持设置上下文管理的相关参数。具体支持的模型列表请参见模型服务。

配置项	说明
缓存	你可以根据需要开启或关闭前缀缓存。开启前缀缓存可以加快模型的响应速度，同时能降低智能体的使用成本，具体用法请参考前缀缓存。
存储	开启后将自动存储输入、输出字段的消息，不存储思维链中的消息。默认开启该功能。若需使用前缀缓存功能，需开启存储功能。
缓存/存储时长	设置上下文缓存和存储的有效时长，最大为 259200 秒（3天）。访问缓存时，不会重新计算缓存的有效期，缓存的生命周期仍从初始设置时开始计时，到期后自动失效。

生成多样性

用于从多个维度调整不同模型在生成内容时的随机性。扣子编程提供以下预置的模式供你选择，每个模式的模型参数取值不同。

精确模式：模型的输出内容严格遵循指令要求，可能会反复讨论某个主题，或频繁出现相同词汇。
平衡模式：模型的输出内容更具随机性和准确性。
创意模式：模型的输出内容更具多样性和创新性，某些场景下可能会偏离主旨。

你也可以根据需求，单击自定义页签，自定义各参数的值。建议不要同时调整生成随机性和 Top P，以免在多参数的影响下难以判断每个参数的调整效果。

配置项	说明
生成随机性	即 temperature，用于控制结果的随机性。调高此参数值，会使模型的输出更具多样性和创新性。降低此参数值，会使输出内容更加严格遵循指令要求。当该数值接近零时，模型将变得确定和重复。在基于事实的问答场景，你可以使用较低的回复随机性数值，以获得更真实和简洁的答案，例如售后客服场景；在创造性的任务例如小说创作，你可以适当调高回复随机性数值。
Top P	累计概率。模型在生成输出时会从概率最高的词汇开始选择，直到这些词汇的总概率累计达到 Top P 值。这样可以限制模型只选择这些高概率的词汇，从而控制输出内容的多样性。
重复语句惩罚	frequency penalty，用于控制模型输出重复语句的频率。当该值为正时，会阻止模型频繁使用相同的词汇和短语，从而增加输出内容的多样性。
重复主题惩罚	presence penalty，用于控制模型输出相同主题的频率。当该值为正时，会阻止模型频繁讨论相同的主题，从而增加输出内容的多样性。

说明

不同模型支持配置的参数不同，具体以界面显示为准。

输入及输出设置

用于指定模型的输出格式等参数，通常包括以下设置。

配置项	说明
携带上下文轮数	设置代入模型上下文的对话历史轮数。轮数越多，多轮对话的相关性越高，但消耗的 Token 也越多。
最大回复长度	智能体在生成提示和响应时，所输出的最大 token 数量，不同模型的 token 限制也不同。指定最大长度可以防止过长或不相关的响应并控制成本。
输出格式	模型输出内容的格式，例如文本、Markdown。

前缀缓存

扣子编程的部分模型支持开启或关闭上下文缓存中的前缀缓存。

功能简介

开启前缀缓存后，扣子编程可将重复出现、内容固定的提示词片段预先存储在缓存中，后续调用时无需重复向大模型传递完整内容，仅需传递动态变化的变量部分。智能体会自动拼接缓存片段与动态变量，生成最终请求，从而加快模型的响应速度。当前扣子编程对命中缓存的 tokens 实行限时免费，可降低智能体的使用成本。默认为关闭前缀缓存。

典型使用场景

前缀缓存适用于需要重复使用相同系统提示词的场景，例如：

角色扮演：智能体的身份设定、语气风格与行为边界等描述内容通常固定，可作为缓存提示词。
基于长文本的问答：针对固定的长文本发送多次请求的场景中，如产品使用手册、教材、法律文件等，可将文档背景介绍、主题基础规则等作为缓存提示词。
模板化内容生成：当智能体需按固定模板生成邮件、报告或商品描述等内容时，可将模板本身作为缓存提示词。

使用限制

前缀缓存的使用限制如下：

限制分类	Context API	Responses API
套餐限制	仅扣子付费套餐支持开启前缀缓存。
模型限制	仅部分模型支持前缀缓存，具体模型列表请参考模型服务。
注意事项	开启前缀缓存后：模型不支持 Function Call，即工具调用。智能体不能使用插件、触发器、变量、数据库、文件盒子、不能添加工作流和对话流。不支持使用插件和工作流相关的快捷指令。智能体和应用不支持多人协作。提示词不能包含以下内容，否则无法命中缓存：获取当前时间变量插件不能提交到提示词库、不支持提示词对比调试、不支持自动优化提示词。	开启前缀缓存后：支持 Function Call、MCP 等工具调用。替换系统提示词后，当前轮对话无法写入缓存。深度思考启用状态与前轮不一致时，当前轮对话无法写入缓存。智能体和应用不支持多人协作。前缀缓存提示词不能包含以下内容，否则无法命中缓存：获取当前时间变量不能提交到提示词库、不支持提示词对比调试、不支持自动优化提示词。

限制分类

Context API

Responses API

套餐限制

仅扣子付费套餐支持开启前缀缓存。

模型限制

仅部分模型支持前缀缓存，具体模型列表请参考模型服务。

注意事项

开启前缀缓存后：

模型不支持 Function Call，即工具调用。
智能体不能使用插件、触发器、变量、数据库、文件盒子、不能添加工作流和对话流。
不支持使用插件和工作流相关的快捷指令。
智能体和应用不支持多人协作。
提示词不能包含以下内容，否则无法命中缓存：
- 获取当前时间
- 变量
- 插件
不能提交到提示词库、不支持提示词对比调试、不支持自动优化提示词。

开启前缀缓存后：

支持 Function Call、MCP 等工具调用。
替换系统提示词后，当前轮对话无法写入缓存。
深度思考启用状态与前轮不一致时，当前轮对话无法写入缓存。
智能体和应用不支持多人协作。
前缀缓存提示词不能包含以下内容，否则无法命中缓存：
- 获取当前时间
- 变量
不能提交到提示词库、不支持提示词对比调试、不支持自动优化提示词。

说明

开启前缀缓存后，发布到豆包时，前缀缓存不生效。
若需要在火山引擎方舟模型上使用前缀缓存，需要在火山方舟控制台开通前缀缓存功能。

操作步骤

在智能体编排页面或工作流的大模型节点中，模型列表中选择支持前缀缓存的模型。
在模型设置区域开启前缀缓存。

智能体编排页面（Context API）

智能体编排页面（Responses API）

工作流模型设置

开启前缀缓存后，你需要设置缓存提示词和非缓存提示词。

缓存提示词：大量重复出现的固定规则、模板框架或背景信息，用于指引大模型输出格式与风格。扣子编程会将其缓存并复用，大模型无需重新解析这部分固定信息。
非缓存提示词：动态变化的个性化信息。每次请求都可能不同，需要实时计算。
以电商平台的产品描述生成助手为例，缓存提示词为固定不变的描述模板，以下是提示词示例：

# 角色
你是电商平台专业的产品描述生成助手，能按照特定模板，以亲切、专业且避免夸张修辞的语言风格，生成标准化产品描述。

## 模板要求
1. 当用户需要生成产品描述时，请按照以下固定模板生成：
    - 产品定位：需明确产品所属品类（如数码配件、家居用品、美妆个护等）、核心价值（如提升效率、改善生活品质、高性价比等），语言简洁有力，不超过 50 字。
    - 核心功能：分点列出 3 - 5 个核心功能，每点以 “・功能名称：功能说明（解决用户什么问题）” 格式呈现，单条不超过 30 字。
    - 目标用户：描述 2 - 3 类核心用户群体，说明其典型特征（如年龄、职业、需求痛点），每类不超过 40 字。
    - 使用场景：列举 2 - 3 个高频使用场景，结合场景说明产品价值，每场景不超过 40 字。
    - 产品优势：对比同类产品，提炼 2 - 3 个独特优势（如材质、技术、设计等），每点不超过 30 字。
    - 购买引导：以 “立即选购，享受 [权益]，让 [产品价值] 融入你的生活！” 为固定句式，括号内容需结合产品特性补充。
2. 请确保各部分逻辑连贯，符合电商平台用户阅读习惯。

目标客户群体为{{target_audience}} 
语言风格为{{tone_style}}

验证缓存效果。
在智能体编排页面与智能体进行对话，在调试详情区域，查看 cached_tokens 字段，如果值大于 0，表示命中缓存。

默认指令

开启后，扣子编程将在对话中自动拼接并执行指令，包括：

当前时间：开启后，智能体在与用户对话时能实时获取并提供准确的时间信息。
SP防泄漏指令：开启后，当用户尝试获取或复述系统内部的规则、提示词或其他敏感内容时，智能体将礼貌地拒绝用户的请求，确保机密信息不被泄露。

深度思考

部分支持深度思考的模型，开发者可以选择开启或关闭深度思考，从而灵活控制模型在交互过程中的 Token 消耗。默认为开启状态。当前仅部分模型支持深度思考，具体支持的模型列表请参见模型服务。

开启深度思考：开启后，智能体在与用户对话时会先输出一段思维链内容，通过逐步拆解问题、梳理逻辑，提升最终输出答案的准确性。但该模式会因额外的推理步骤消耗更多 Token。
说明

开启深度思考后：
- 模型不支持 Function Call，即工具调用。
- 智能体不能使用插件、触发器、变量、数据库、文件盒子、不能添加工作流和对话流。
- 不支持使用插件和工作流相关的快捷指令。
关闭深度思考：关闭后，智能体将直接生成最终答案，不再经过额外的思维链推理过程，可有效降低 Token 消耗，提升响应速度。
自动：启用自动模式后，模型会根据对话内容的复杂度，自动判断是否启用深度思考：
- 简单问题（如事实查询、基础指令等）：自动关闭深度思考，快速响应。
- 复杂问题（如逻辑推理、创意生成等）：自动开启深度思考，保证答案质量。

常见问题

和模型对话时报错平台错误

场景：和模型的智能体对话时，如果智能体回复“平台错误，请稍后再试或提交反馈”，且调试台中提示错误信息包含 empty result，表示模型没有回复，通常原因为本次对话较为复杂，触发了模型回复的 Token 限制。
解决方案：对于处理逻辑复杂、对话消耗 Token 较多的模型，建议在模型设置中调大最大回复长度，也可以将智能体的模型更换为消耗 Token 较少、或处理 Token 的上限较大的模型。