开发工具/API 参考/智能音视频/WebSocket 语音/双向流式对话上行事件
双向流式对话上行事件
更新于: 2026-06-25 19:29:14
本文介绍扣子编程 WebSocket 双向流式对话事件中的上行事件,双向流式对话下行事件请参见双向流式对话下行事件。
chat.updatechat.updated 的下行事件,否则,会收到 error 下行事件。|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
|
data |
Object |
可选 |
事件数据,包含对话配置的详细信息。 |
|
data.chat_config |
Object |
可选 |
对话配置。 |
|
data.chat_config.meta_data |
Map<String, String> |
可选 |
附加信息,通常用于封装一些业务相关的字段。查看对话消息详情时,系统会透传此附加信息。自定义键值对,应指定为 Map 对象格式。长度为 16 对键值对,其中键(key)的长度范围为 1~64 个字符,值(value)的长度范围为 1~512 个字符。 |
|
data.chat_config.custom_variables |
Map<String, String> |
可选 |
智能体中定义的变量。在智能体 prompt 中设置变量 {{key}} 后,可以通过该参数传入变量值,同时支持 Jinja2 语法。详细说明可参考变量示例。变量名只支持英文字母和下划线。 |
|
data.chat_config.extra_params |
Map<String, String> |
可选 |
附加参数,通常用于特殊场景下指定一些必要参数供模型判断,例如指定经纬度,并询问智能体此位置的天气。自定义键值对格式,其中键(key)仅支持设置为:
|
|
data.chat_config.user_id |
String |
可选 |
标识当前与智能体的用户,由使用方自行定义、生成与维护。 |
|
data.chat_config.conversation_id |
String |
可选 |
标识对话发生在哪一次会话中。会话是智能体和用户之间的一段问答交互。一个会话包含一条或多条消息。对话是会话中对智能体的一次调用,智能体会将对话中产生的消息添加到会话中。可以使用已创建的会话,会话中已存在的消息将作为上下文传递给模型。创建会话的方式可参考创建会话。对于一问一答等不需要区分 conversation 的场合可不传该参数,系统会自动生成一个会话。不传的话会默认创建一个新的 conversation。 |
|
data.chat_config.auto_save_history |
Boolean |
可选 |
是否保存本次对话记录。
|
|
data.chat_config.parameters |
Map<String, any> |
可选 |
设置对话流的自定义输入参数的值,具体用法和示例代码可参考为自定义参数赋值。
|
|
data.input_audio |
Object |
可选 |
输入音频格式。 |
|
data.input_audio.format |
String |
可选 |
输入音频的格式,支持 |
|
data.input_audio.codec |
String |
可选 |
输入音频的编码,支持 |
|
data.input_audio.sample_rate |
Integer |
可选 |
输入音频的采样率,默认是 24000。支持 8000、16000、22050、24000、32000、44100、48000。 |
|
data.input_audio.channel |
Integer |
可选 |
输入音频的声道数,支持 1(单声道)、2(双声道)。默认是 1(单声道)。 |
|
data.input_audio.bit_depth |
Integer |
可选 |
输入音频的位深,默认是 16,支持8、16和24。 |
|
data.output_audio |
Object |
可选 |
输出音频格式。 |
|
data.output_audio.codec |
String |
可选 |
输出音频编码,支持 说明 当 |
|
data.output_audio.pcm_config |
Object |
可选 |
说明
|
|
data.output_audio.pcm_config.sample_rate |
Integer |
可选 |
输出 说明 当 |
|
data.output_audio.pcm_config.frame_size_ms |
Float |
可选 |
输出每个 pcm 包的时长,单位 ms,默认不限制。取值范围:0~1000。 |
|
data.output_audio.pcm_config. limit_config |
Object |
可选 |
输出音频限流配置,默认不限制。 说明 如需实现输出 PCM 音频限流,还需要配置 |
|
data.output_audio.pcm_config. limit_config.period |
Integer |
可选 |
周期的时长,单位为秒。例如设置为 10 秒,则以 10 秒作为一个周期。 |
|
data.output_audio.pcm_config. limit_config.max_frame_num |
Integer |
可选 |
周期内,最大返回 pcm 包数量。 |
|
data.output_audio.opus_config |
Object |
可选 |
当 |
|
data.output_audio.opus_config.sample_rate |
Integer |
可选 |
编码成 |
|
data.output_audio.opus_config.bitrate |
Integer |
可选 |
输出 |
|
data.output_audio.opus_config.use_cbr |
Boolean |
可选 |
输出 |
|
data.output_audio.opus_config.frame_size_ms |
Float |
可选 |
输出 |
|
data.output_audio.opus_config.limit_config |
Object |
可选 |
输出音频限流配置,默认不限速。 |
|
data.output_audio.opus_config.limit_config.period |
Integer |
可选 |
周期的时长,单位为秒。例如设置为 10 秒,则以 10 秒作为一个周期。 |
|
data.output_audio.opus_config.limit_config.max_frame_num |
Integer |
可选 |
周期内最大返回的 Opus 帧数量。 |
|
data.output_audio.mp3_config |
Object |
可选 |
|
|
data.output_audio.mp3_config.sample_rate |
Integer |
可选 |
输出 |
|
data.output_audio.mp3_config.bit_rate |
Integer |
可选 |
输出 |
|
data.output_audio.speech_rate |
Integer |
可选 |
输出音频的语速,取值范围 [-50, 100],默认为 0。-50 表示 0.5 倍速,100 表示 2 倍速。 |
|
data.output_audio.loudness_rate |
Integer |
可选 |
输出音频的音量,取值范围 [-50, 100],默认为 0。-50 表示 0.5 倍音量,100 表示 2 倍音量。 |
|
data.output_audio.voice_id |
String |
可选 |
输出音频的音色 ID,默认是柔美女友音色。你可以调用查看音色列表 API 查看当前可用的所有音色 ID。 |
|
data.output_audio.context_texts |
String |
可选 |
语音合成的辅助信息,用于控制合成语音的整体情绪(如悲伤、生气)、方言(如四川话、北京话)、语气(如撒娇、暧昧、吵架、夹子音)、语速(快慢)及音调(高低)等。默认为空。 |
|
data.output_audio.emotion_config |
Object |
可选 |
设置多情感音色的情感和情感值,仅当 |
|
data.output_audio.emotion_config.emotion |
String |
可选 |
设置多情感音色的情感类型。不同音色支持的情感范围不同,可以通过系统音色列表查看各音色支持的情感。默认为空。枚举值如下:
说明 你需要在对话流开始节点的输入参数中增加 |
|
data.output_audio.emotion_config.emotion_scale |
Float |
可选 |
情感值用于量化情感的强度。数值越高,情感表达越强烈,例如: “开心” 的情感值 5 比 1 更显兴奋。 |
|
data.voice_processing_config |
Object |
可选 |
语音处理能力配置。 说明 仅扣子企业旗舰版支持该配置。 |
|
data.voice_processing_config.enable_ans |
Boolean |
可选 |
主动噪声抑制。自动识别并过滤掉背景环境中的各种噪音(如键盘声、空调声、街道嘈杂声),让说话者的声音更清晰。 |
|
data.voice_processing_config.enable_pdns |
Boolean |
可选 |
声纹降噪。专门针对特定说话人的声音进行优化,能更精准地保留目标人声。
|
|
data.voice_processing_config.voice_print_feature_id |
String |
可选 |
目标说话人的声纹 ID。当你选择开启 |
|
data.event_subscriptions |
Array |
可选 |
需要订阅下行事件的事件类型列表。不设置或者设置为空为订阅所有下行事件。 |
|
data.need_play_prologue |
Boolean |
可选 |
是否需要播放开场白,默认为 false。 |
|
data.prologue_content |
String |
可选 |
自定义开场白,need_play_prologue 设置为 true 时生效。如果不设定自定义开场白则使用智能体上设置的开场白。 |
|
data.turn_detection |
Object |
可选 |
转检测配置。 |
|
data.turn_detection.type |
String |
可选 |
语音检测类型,用于控制语音交互的检测方式,枚举值:
|
|
data.turn_detection.prefix_padding_ms |
Integer |
可选 |
|
|
data.turn_detection.silence_duration_ms |
Integer |
可选 |
|
|
data.turn_detection.semantic_vad_config |
Object |
可选 |
|
|
data.turn_detection.semantic_vad_config.silence_threshold_ms |
Integer |
可选 |
当用户暂停说话时,持续静音多久后,触发语义判停检测。单位为 ms。默认为 300ms。 |
|
data.turn_detection.semantic_vad_config.semantic_unfinished_wait_time_ms |
Integer |
可选 |
当语义检测判断该语句未结束时,持续静音多久后,扣子编程认定语音结束。单位为 ms。默认为 500ms。取值范围为 100~2000。 |
|
data.turn_detection.interrupt_config |
Object |
可选 |
|
|
data.turn_detection.interrupt_config.mode |
String |
可选 |
配置通过关键词打断,包括:
详细配置方法请参见通过关键词打断语音对话。 |
|
data.turn_detection.interrupt_config.keywords |
Array |
可选 |
打断的关键词配置,最多同时限制 5 个关键词,每个关键词限定长度在 6~24 个字节以内(2~8个汉字以内),不能有标点符号。 |
|
data.asr_config |
Object |
可选 |
语音识别配置,包括热词和上下文信息,以便优化语音识别的准确性和相关性。 |
|
data.asr_config.hot_words |
Array |
可选 |
请输入热词列表,以便提升这些词汇的识别准确率。如果设置的热词数量超出以下数量限制,超出部分将自动截断。
|
|
data.asr_config.context |
String |
可选 |
请输入上下文信息。 |
|
data.asr_config.user_language |
String |
可选 |
用户说话的语种,默认为
例如,如果输入音频是德语,则此参数传入de-DE |
|
data.asr_config.enable_ddc |
Boolean |
可选 |
将语音转为文本时,是否启用语义顺滑。默认为
|
|
data.asr_config.enable_itn |
Boolean |
可选 |
将语音转为文本时,是否开启文本规范化(ITN)处理,将识别结果转换为更符合书面表达习惯的格式以提升可读性。默认为
|
|
data.asr_config.enable_punc |
Boolean |
可选 |
将语音转为文本时,是否给文本加上标点符号。默认为 |
|
data.asr_config.stream_mode |
String |
可选 |
ASR 识别的模式。
|
|
data.asr_config.enable_nostream |
Boolean |
可选 |
是否开启二次识别模式:
|
|
data.asr_config.enable_emotion |
Boolean |
可选 |
识别说话人的情绪。仅在
|
|
data.asr_config.enable_gender |
Boolean |
可选 |
是否开启识别说话人的性别(male/female),仅在 说明 你需要在对话流开始节点的输入参数中增加 |
|
data.asr_config.sensitive_words_filter |
Object |
可选 |
敏感词过滤功能,支持以下 3 种过滤方式:
|
|
data.asr_config.sensitive_words_filter.system_reserved_filter |
Boolean |
可选 |
是否过滤系统自带的敏感词,并将匹配到的敏感词替换为 |
|
data.asr_config.sensitive_words_filter.filter_with_empty |
Array |
可选 |
自定义需替换为空的敏感词列表。 |
|
data.asr_config.sensitive_words_filter.filter_with_signed |
Array |
可选 |
自定义需替换为 |
|
data.voice_print_config |
Object |
可选 |
声纹识别配置。 |
|
data.voice_print_config.group_id |
String |
可选 |
声纹组 ID。语音通话时,扣子编程会在该声纹组内进行查找匹配对应的声纹,当声纹匹配度高于 |
|
data.voice_print_config.score |
Integer |
可选 |
声纹匹配的命中阈值,即声音匹配度的最低标准。当声音匹配度达到或超过该阈值时,扣子编程才会认定声纹匹配成功。你可以根据应用的安全性要求进行自定义设置。如果匹配了多轮声纹,扣子编程会取相似度最高的一个。 |
|
data.voice_print_config.reuse_voice_info |
Boolean |
可选 |
当本轮对话未命中任何声纹时,是否沿用历史声纹信息。
|
{
"id": "event_id",
"event_type": "chat.update",
"data": {
"chat_config": {
"auto_save_history": true, // 保存历史记录。默认 true
"conversation_id": "xxxx", // conversation_id
"user_id": "xxx", // 标识当前与智能体的用户,由使用方自行定义、生成与维护。user_id 用于标识对话中的不同用户,不同的 user_id,其对话的上下文消息、数据库等对话记忆数据互相隔离。如果不需要用户数据隔离,可将此参数固定为一个任意字符串
"meta_data": {}, // 附加信息,通常用于封装一些业务相关的字段。查看对话消息详情时,系统会透传此附加信息。
"custom_variables": {}, // 智能体中定义的变量。在智能体prompt中设置变量{{key}}后,可以通过该参数传入变量值,同时支持Jinja2语法。详细说明可参考变量示例。变量名只支持英文字母和下划线。
"extra_params": {}, // 附加参数,通常用于特殊场景下指定一些必要参数供模型判断,例如指定经纬度,并询问智能体此位置的天气。自定义键值对格式,其中键(key)仅支持设置为:latitude:纬度,此时值(Value)为纬度值,例如39.9800718。longitude:经度,此时值(Value)为经度值,例如116.309314。
"parameters": {"custom_var_1": "测试"}
},
"input_audio": { // 输入音频格式
"format": "pcm", // 输入音频格式,支持 pcm/wav/ogg。默认 wav
"codec": "pcm", // 输入音频编码。 pcm/opus。默认 pcm
"sample_rate": 24000, // 采样率
"channel": 1, // 通道数
"bit_depth": 16 // 位深
},
"output_audio": { // 输出音频格式
"codec": "pcm",
"pcm_config": {
"sample_rate": 16000, // 默认 24000
"frame_size_ms": 50,
"limit_config": {
"period": 1,
"max_frame_num": 22
}
},
"speech_rate": 0, // 回复的语速,取值范围 [-50, 100],默认为 0,-50 表示 0.5 倍速,100 表示 2倍速
"voice_id": "7426720361733046281"
}
}
}
{
"id": "event_id",
"event_type": "chat.update",
"data": {
"chat_config": {
"auto_save_history": true, // 保存历史记录。默认 true
"conversation_id": "xxxx", // conversation_id
"user_id": "xxx", // 标识当前与智能体的用户,由使用方自行定义、生成与维护。user_id 用于标识对话中的不同用户,不同的 user_id,其对话的上下文消息、数据库等对话记忆数据互相隔离。如果不需要用户数据隔离,可将此参数固定为一个任意字符串
"meta_data": {}, // 附加信息,通常用于封装一些业务相关的字段。查看对话消息详情时,系统会透传此附加信息。
"custom_variables": {}, // 智能体中定义的变量。在智能体prompt中设置变量{{key}}后,可以通过该参数传入变量值,同时支持Jinja2语法。详细说明可参考变量示例。变量名只支持英文字母和下划线。
"extra_params": {}, // 附加参数,通常用于特殊场景下指定一些必要参数供模型判断,例如指定经纬度,并询问智能体此位置的天气。自定义键值对格式,其中键(key)仅支持设置为:latitude:纬度,此时值(Value)为纬度值,例如39.9800718。longitude:经度,此时值(Value)为经度值,例如116.309314。
"parameters": {"custom_var_1": "测试"}
},
"input_audio": { // 输入音频格式
"format": "pcm", // 输入音频格式,支持 pcm/wav/ogg。默认 wav
"codec": "pcm", // 输入音频编码。 pcm/opus。默认 pcm
"sample_rate": 24000, // 采样率
"channel": 1, // 通道数
"bit_depth": 16 // 位深
},
"output_audio": { // 输出音频格式
"codec": "opus",
"opus_config": {
"bitrate": 48000, // 码率
"use_cbr": false, // 是否使用 cbr 编码
"frame_size_ms": 10, // 帧长(单位ms)
"limit_config": {
"period": 2, // 周期(单位 s)
"max_frame_num": 240 // 周期内返回最大 opus 帧数量
}
},
"speech_rate": 0, // 回复的语速,取值范围 [-50, 100],默认为 0,-50 表示 0.5 倍速,100 表示 2倍速
"voice_id": "7426720361733046281"
}
}
}
事件类型:input_audio_buffer.append
事件说明:流式向服务端提交音频的片段。
事件结构:
|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
|
data |
Object |
必选 |
事件数据,包含音频片段信息。 |
|
data.delta |
String |
必选 |
base64 编码后的音频片段。 |
事件示例:
{
"id": "event_id",
"event_type": "input_audio_buffer.append",
"data": {
"delta": "base64EncodedAudioDelta"
}
}
事件类型:input_audio_buffer.complete
事件说明:客户端发送 input_audio_buffer.complete 事件来告诉服务端提交音频缓冲区的数据。服务端提交成功后会返回 input_audio_buffer.completed 事件。在 server_vad 模式下,提交此事件无效。
事件结构:
|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
事件示例:
{
"id": "event_id",
"event_type": "input_audio_buffer.complete"
}
事件类型:input_audio_buffer.clear
事件说明:客户端发送 input_audio_buffer.clear 事件来告诉服务端清除缓冲区的音频数据。服务端清除完后将返回 input_audio_buffer.cleared 事件。在 server_vad 模式下,提交此事件无效。
事件结构:
|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
事件示例:
{
"id": "event_1",
"event_type": "input_audio_buffer.clear"
}
事件类型:conversation.message.create
事件说明:若 role=user,提交事件后就会生成语音回复,适合如下的场景,比如帮我解析 xx 链接,帮我分析这个图片的内容等。若 role=assistant,提交事件后会加入到对话的上下文。
事件结构:
|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
|
data |
Object |
必选 |
事件数据,包含对话内容的详细信息。 |
|
data.role |
String |
必选 |
发送这条消息的实体。取值: |
|
data.content_type |
String |
必选 |
消息内容的类型,支持设置为:
|
|
data.content |
String |
必选 |
消息的内容,支持纯文本、多模态(文本、图片、文件混合输入)、卡片等多种类型的内容。当 content_type 为 |
事件示例:
{
"id": "7446668538246561826",
"event_type": "conversation.message.create",
"data": {
"role": "user", // user/assistant
"content_type": "object_string", // text/object_string
"content": "[{\"type\":\"text\",\"text\":\"帮我看看这个PDF里有什么内容?\"},{\"type\":\"file\",\"file_url\":\"<url id=\\\"cumqdq0onf4lro6iakgg\\\" type=\\\"url\\\" status=\\\"failed\\\" title=\\\"\\\" wc=\\\"0\\\">https://lf3-appstore-sign.oceancloudapi.com/ocean-cloud-tos/eaafba63-0d96-4ea6-b60c-fbadcf2c25e9.?lk3s=edeb9e45&x-expires=1718296132&x-signature=YtlsUsvSeLJi6x31I%2F4S9X53Y6Y%3D</url> \"}]"
}
}
事件类型:conversation.clear
事件说明:清除上下文,会在当前 conversation 下新增一个 section,服务端处理完后会返回 conversation.cleared 事件。
事件结构:
|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
事件示例:
{
"id": "event_1",
"event_type": "conversation.clear"
}
conversation.chat.submit_tool_outputsevent_type = "conversation.chat.requires_action" 的下行事件,此时需要执行客户端的操作后,通过此上行事件来提交插件执行后的结果。|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
|
data |
Object |
必选 |
事件数据,包含工具执行结果的详细信息。 |
|
data.chat_id |
String |
必选 |
对话的唯一标识。你可以在扣子编程智能语音对话下行的 |
|
data.tool_outputs |
Array |
必选 |
工具执行结果。 |
|
data.tool_outputs[].tool_call_id |
String |
必选 |
上报运行结果的 ID。你可以在扣子编程智能语音对话信令事件的 |
|
data.tool_outputs[].output |
String |
必选 |
工具的执行结果。 |
{
"id": "744666853824656xxxx",
"event_type": "conversation.chat.submit_tool_outputs",
"data": {
"chat_id": "74466752759xxxx",
"tool_outputs": [
{
"tool_call_id": "BUJJRUUVEhJGERVeEkRDFV5HEkJAXktLQBZeEEAXREpLSxZFR****=",
"output": "{\"url\":\"<url id=\\\"cumqdq0onf4lro6iakh0\\\" type=\\\"url\\\" status=\\\"failed\\\" title=\\\"\\\" wc=\\\"0\\\">https://lf3-bot-platform-tos-sign.coze.cn/bot-studio-bot-platform/bot_files/323733792754xxx/image/jpeg/7446661351415529491/blob</url> ****\"}"
}
]
}
}
事件类型:conversation.chat.cancel
事件说明:发送此事件可取消正在进行的对话,中断后,服务端将会返回 conversation.chat.canceled 事件。
事件结构:
|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
必填 |
事件示例:
{
"id": "7446668538246561827",
"event_type": "conversation.chat.cancel"
}
input_text.generate_audio|
参数 |
类型 |
是否必选 |
说明 |
|---|---|---|---|
|
id |
String |
必选 |
客户端自行生成的事件 ID,方便定位问题。 |
|
event_type |
String |
必选 |
固定为 |
|
data |
Object |
必选 |
事件数据。 |
|
data.mode |
String |
必选 |
消息内容的类型,支持设置为:
|
|
data.text |
string |
可选 |
当 |
{
"id": "744666853824656xxxx",
"event_type": "input_text.generate_audio",
"data": {
"mode": "text",
"text": "亲,你怎么不说话了。"
}
}