智能体/低代码智能体基础设置/设置模型
设置模型
更新于: 2026-06-24 15:44:40
扣子编程已接入多款大模型,支持对各种大模型进行精细化的参数设置,例如生成多样性、输入及输出设置等。各个模型支持调整的参数不同。
你可以在低代码智能体的编排页面为智能体选择一个合适的大模型,例如对于长文生成或优化相关的智能体选择一个支持长文本的大模型、对于具有复杂业务逻辑的智能体选择一个支持 Function call 的大模型。选择模型并完成智能体的技能、知识等设置后,你也可以切换成不同的模型,测评各个模型在同一个智能体中的效果,选择最合适的模型。
各个订阅套餐支持的模型资源,请参考模型服务。
Responses API 是模型新推出的 API,不仅延续了 Chat API 的易用性,还原生支持高效的上下文管理和前缀缓存。适用于需要多步推理等复杂任务链处理的场景。
你可以在协议类型中选择 Chat API 或 Responses API,用于指定智能体与大模型交互时使用的协议。当选择 Responses API 后,扣子编程将切换至大模型的 Responses API 进行调用,其模型参数设置及对话交互均基于该协议。仅部分模型支持切换为 Responses API,具体支持的模型列表请参见模型服务。
Responses API 模型支持设置上下文管理的相关参数。具体支持的模型列表请参见模型服务。
|
配置项 |
说明 |
|---|---|
|
缓存 |
你可以根据需要开启或关闭前缀缓存。开启前缀缓存可以加快模型的响应速度,同时能降低智能体的使用成本,具体用法请参考前缀缓存。 |
|
存储 |
开启后将自动存储输入、输出字段的消息,不存储思维链中的消息。默认开启该功能。 |
|
缓存/存储时长 |
设置上下文缓存和存储的有效时长,最大为 259200 秒(3天)。 |
用于从多个维度调整不同模型在生成内容时的随机性。扣子编程提供以下预置的模式供你选择,每个模式的模型参数取值不同。
你也可以根据需求,单击自定义页签,自定义各参数的值。建议不要同时调整生成随机性和 Top P,以免在多参数的影响下难以判断每个参数的调整效果。
|
配置项 |
说明 |
|---|---|
|
生成随机性 |
即 temperature,用于控制结果的随机性。
在基于事实的问答场景,你可以使用较低的回复随机性数值,以获得更真实和简洁的答案,例如售后客服场景;在创造性的任务例如小说创作,你可以适当调高回复随机性数值。 |
|
Top P |
累计概率。 |
|
重复语句惩罚 |
frequency penalty,用于控制模型输出重复语句的频率。 |
|
重复主题惩罚 |
presence penalty,用于控制模型输出相同主题的频率。 |
说明
不同模型支持配置的参数不同,具体以界面显示为准。
用于指定模型的输出格式等参数,通常包括以下设置。
|
配置项 |
说明 |
|---|---|
|
携带上下文轮数 |
设置代入模型上下文的对话历史轮数。轮数越多,多轮对话的相关性越高,但消耗的 Token 也越多。 |
|
最大回复长度 |
智能体在生成提示和响应时,所输出的最大 token 数量,不同模型的 token 限制也不同。指定最大长度可以防止过长或不相关的响应并控制成本。 |
|
输出格式 |
模型输出内容的格式,例如文本、Markdown。 |
扣子编程的部分模型支持开启或关闭上下文缓存中的前缀缓存。
开启前缀缓存后,扣子编程可将重复出现、内容固定的提示词片段预先存储在缓存中,后续调用时无需重复向大模型传递完整内容,仅需传递动态变化的变量部分。智能体会自动拼接缓存片段与动态变量,生成最终请求,从而加快模型的响应速度。当前扣子编程对命中缓存的 tokens 实行限时免费,可降低智能体的使用成本。默认为关闭前缀缓存。
前缀缓存适用于需要重复使用相同系统提示词的场景,例如:
前缀缓存的使用限制如下:
|
限制分类 |
Context API |
Responses API |
|---|---|---|
|
套餐限制 |
仅扣子付费套餐支持开启前缀缓存。 |
|
|
模型限制 |
仅部分模型支持前缀缓存,具体模型列表请参考模型服务。 |
|
|
注意事项 |
开启前缀缓存后:
|
开启前缀缓存后:
|
说明
在智能体编排页面或工作流的大模型节点中,模型列表中选择支持前缀缓存的模型。
在模型设置区域开启前缀缓存。
智能体编排页面(Context API)
智能体编排页面(Responses API)
工作流模型设置
开启前缀缓存后,你需要设置缓存提示词和非缓存提示词。
# 角色
你是电商平台专业的产品描述生成助手,能按照特定模板,以亲切、专业且避免夸张修辞的语言风格,生成标准化产品描述。
## 模板要求
1. 当用户需要生成产品描述时,请按照以下固定模板生成:
- 产品定位:需明确产品所属品类(如数码配件、家居用品、美妆个护等)、核心价值(如提升效率、改善生活品质、高性价比等),语言简洁有力,不超过 50 字。
- 核心功能:分点列出 3 - 5 个核心功能,每点以 “・功能名称:功能说明(解决用户什么问题)” 格式呈现,单条不超过 30 字。
- 目标用户:描述 2 - 3 类核心用户群体,说明其典型特征(如年龄、职业、需求痛点),每类不超过 40 字。
- 使用场景:列举 2 - 3 个高频使用场景,结合场景说明产品价值,每场景不超过 40 字。
- 产品优势:对比同类产品,提炼 2 - 3 个独特优势(如材质、技术、设计等),每点不超过 30 字。
- 购买引导:以 “立即选购,享受 [权益],让 [产品价值] 融入你的生活!” 为固定句式,括号内容需结合产品特性补充。
2. 请确保各部分逻辑连贯,符合电商平台用户阅读习惯。
目标客户群体为{{target_audience}}
语言风格为{{tone_style}}
验证缓存效果。
在智能体编排页面与智能体进行对话,在调试详情区域,查看 cached_tokens 字段,如果值大于 0,表示命中缓存。
开启后,扣子编程将在对话中自动拼接并执行指令,包括:
部分支持深度思考的模型,开发者可以选择开启或关闭深度思考,从而灵活控制模型在交互过程中的 Token 消耗。默认为开启状态。当前仅部分模型支持深度思考,具体支持的模型列表请参见模型服务。
说明
开启深度思考后:
当前问答智能体暂不支持设置输入内容的 token 限制,但可通过大模型的最大回复长度参数控制模型输出的最大 token 量级以限制输出长度。
扣子编程智能体的响应时间与调用的链路复杂度有关。如果智能体涉及到插件等工具的调用,可能比直接调用大模型耗时更久。
如果前缀缓存未命中,cached token 始终为 0,可能是以下原因:
扣子编程当前对缓存命中的 token 实行限时免费,你可以在智能体编排页面的调试详情区域,查看 cached token 和 total token 的数量,根据两者的比例计算节省的成本。
cached token:本次请求中命中缓存的 token 数量。total token:本次请求的总 token 消耗。说明
此处返回的 token 仅为估算值,具体以火山账单为准。