助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈
低代码项目
快速开始
智能体
工作流
应用
资源
发布
模型
多人协作
开发工具
Coze CLI
API 参考
鉴权
智能体和应用
工作空间
文件夹
企业/组织
会话与消息
对话
工作流
文件
知识库
数据库
插件
变量
渠道
用量限额
账单与权益
回调
API 教程
SDK 参考
音视频
推广与变现

双向流式语音合成事件

更新于: 2026-06-25 19:29:14

上行事件

更新语音合成配置

  • 事件类型speech.update

  • 事件说明:更新流式语音合成配置。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 speech.update

    data

    Object

    可选

    事件数据,包含语音合成配置的详细信息。

    data.output_audio

    Object

    可选

    输出音频格式。

    data.output_audio.codec

    String

    可选

    输出音频编码,支持 pcmopus。默认是 pcm

    data.output_audio.pcm_config

    Object

    可选

    codec 设置为 opus 时,不需要设置此字段。

    说明

    codec 设置为 pcm 时,返回的 PCM 数据将固定为单声道,采样深度为 16 位。

    data.output_audio.pcm_config.sample_rate

    Integer

    可选

    输出 pcm 音频的采样率,默认 24000。

    data.output_audio.pcm_config.frame_size_ms

    Float

    可选

    输出每个 pcm 包的时长,单位 ms,默认不限制。

    data.output_audio.pcm_config. limit_config

    Object

    可选

    输出音频限流配置,默认不限制。

    data.output_audio.pcm_config. limit_config.period

    Integer

    可选

    周期的时长,单位为秒。例如设置为 10 秒,则以 10 秒作为一个周期。

    data.output_audio.pcm_config. limit_config.max_frame_num

    Integer

    可选

    周期内,最大返回 pcm 包数量。

    data.output_audio.opus_config

    Object

    可选

    codec 设置为 pcm 时,不需要设置此字段。

    data.output_audio.opus_config.bitrate

    Integer

    可选

    输出 opus 的码率,默认 48000。

    data.output_audio.opus_config.use_cbr

    Boolean

    可选

    输出 opus 是否使用 CBR 编码,默认为 false

    data.output_audio.opus_config.frame_size_ms

    Float

    可选

    输出 opus 的帧长,默认是 10。可选值:
    2.5、5、10、20、40、60

    data.output_audio.opus_config.limit_config

    Object

    可选

    输出音频限流配置,默认不限速。

    data.output_audio.opus_config.limit_config.period

    Integer

    可选

    周期的时长,单位为秒。例如设置为 10 秒,则以 10 秒作为一个周期。

    data.output_audio.opus_config.limit_config.max_frame_num

    Integer

    可选

    周期内最大返回的 Opus 帧数量。

    data.output_audio.speech_rate

    Integer

    可选

    输出音频的语速,取值范围 [-50, 100],默认为 0。-50 表示 0.5 倍速,100 表示 2 倍速。

    data.output_audio.loudness_rate

    Integer

    可选

    输出音频的音量,取值范围 [-50, 100],默认为 0。-50 表示 0.5 倍音量,100 表示 2 倍音量。不支持复刻音色。

    data.output_audio.voice_id

    String

    可选

    输出音频的音色 ID。默认音色为"柔美女友"。你可以调用查看音色列表 API 查看当前可用的所有音色 ID。

    data.output_audio.context_texts

    String

    可选

    语音合成的辅助信息,用于控制合成语音的整体情绪(如悲伤、生气)、方言(如四川话、北京话)、语气(如撒娇、暧昧、吵架、夹子音)、语速(快慢)及音调(高低)等。默认为空。
    示例:用低沉沙哑的语气、带着沧桑与绝望地说。

    说明

    • 仅当 voice_id 为豆包语音合成大模型 2.0 音色时才支持该参数,具体音色列表请参见系统音色列表
    • 更多关于豆包语音合成 2.0 的 context_texts 示例和效果可参考语音指令-示例库

    data.output_audio.emotion_config

    Object

    可选

    设置多情感音色的情感类型和情感值,仅当 voice_id 为多情感音色时才需要设置。

    data.output_audio.emotion_config.emotion

    String

    可选

    设置多情感音色的情感类型。不同音色支持的情感范围不同,可以通过系统音色列表查看各音色支持的情感。默认为空。枚举值如下:

    • happy-开心
    • sad-悲伤
    • angry-生气
    • surprised-惊讶
    • fear-恐惧
    • hate-厌恶
    • excited-激动
    • coldness-冷漠
    • neutral-中性

    data.output_audio.emotion_config.emotion_scale

    Float

    可选

    情感值用于量化情感的强度。数值越高,情感表达越强烈,例如: “开心” 的情感值 5 比 1 更显兴奋。
    取值范围:1.0~5.0,默认值:4.0。

  • 事件示例

    {
      "id": "event_id",
      "event_type": "speech.update",
      "data": {
          "output_audio": {
              "codec": "pcm",
              "pcm_config": {
                  "sample_rate": 24000
              },
              "speech_rate": 50,
              "voice_id": "音色id"
          }
      }
    }
    

流式输入文字

  • 事件类型input_text_buffer.append

  • 事件说明:流式向服务端提交文字的片段。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 input_text_buffer.append

    data

    Object

    必选

    事件数据,包含文字片段。

    data.delta

    String

    必选

    需要合成语音的文字片段。

  • 事件示例

    {
      "id": "event_id",
      "event_type": "input_text_buffer.append",
      "data": {
          "delta": "text"
      }
    }
    

提交文字

  • 事件类型input_text_buffer.complete

  • 事件说明:提交 append 的文本,发送后将收到 input_text_buffer.completed 的下行事件。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 input_text_buffer.complete

  • 事件示例

    {
      "id": "event_id",
      "event_type": "input_text_buffer.complete"
    }
    

下行事件

连接成功

  • 事件类型speech.created

  • 事件说明:语音合成连接成功后,返回此事件。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    服务端生成的唯一 ID。

    event_type

    String

    必选

    固定为 speech.created

    detail

    Object

    必选

    事件详情。

    detail.logid

    String

    必选

    本次请求的日志 ID。如果遇到异常报错场景,且反复重试仍然报错,可以根据此 logid 及错误码联系扣子团队获取帮助。详细说明可参考获取帮助和技术支持。

  • 事件示例

    {
      "id": "7446668538246561xxxx",
      "event_type": "speech.created",
      "detail": {
          "logid": "20241210152726467C48D89D6DB2F3***"
      }
    }
    

配置更新完成

  • 事件类型speech.updated

  • 事件说明:配置更新成功后,会返回最新的配置。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 speech.updated

    data

    Object

    必选

    事件数据,包含语音合成配置的详细信息。

    data.output_audio

    Object

    必选

    输出音频格式。

    data.output_audio.codec

    String

    必选

    输出音频编码,支持 pcmopus。默认是 pcm

    data.output_audio.pcm_config

    Object

    可选

    codec 设置为 opus 时,不需要设置此字段。

    data.output_audio.pcm_config.sample_rate

    Integer

    可选

    输出 pcm 音频的采样率,默认 24000。

    data.output_audio.opus_config

    Object

    可选

    codec 设置为 pcm 时,不需要设置此字段。

    data.output_audio.opus_config.bitrate

    Integer

    可选

    输出 opus 的码率,默认 48000。

    data.output_audio.opus_config.use_cbr

    Boolean

    可选

    输出 opus 是否使用 CBR 编码,默认为 false

    data.output_audio.opus_config.frame_size_ms

    Float

    可选

    输出 opus 的帧长,默认是 10。

    data.output_audio.speech_rate

    Integer

    必选

    输出音频的语速,取值范围 [-50, 100],默认为 0。-50 表示 0.5 倍速,100 表示 2 倍速。

    data.output_audio.voice_id

    String

    必选

    输出音频的音色 ID。

    detail

    Object

    必选

    事件详情。

    detail.logid

    String

    必选

    本次请求的日志 ID。如果遇到异常报错场景,且反复重试仍然报错,可以根据此 logid 及错误码联系扣子团队获取帮助。详细说明可参考获取帮助和技术支持。

  • 事件示例

    {
      "id": "event_id",
      "event_type": "speech.updated",
      "data": {
          "output_audio": {
              "codec": "pcm",
              "pcm_config": {
                  "sample_rate": 24000
              },
              "speech_rate": 50,
              "voice_id": "音色id"
          }
      },
      "detail": {
          "logid": "20241210152726467C48D89D6DB2F3***"  }
    }
    

input_text_buffer 提交完成

  • 事件类型input_text_buffer.completed

  • 事件说明:流式提交的文字完成后,返回此事件。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 input_text_buffer.completed

    detail

    Object

    必选

    事件详情。

    detail.logid

    String

    必选

    本次请求的日志 ID。如果遇到异常报错场景,且反复重试仍然报错,可以根据此 logid 及错误码联系扣子团队获取帮助。详细说明可参考获取帮助和技术支持。

  • 事件示例

    {
      "id": "event_id",
      "event_type": "input_text_buffer.completed",
      "detail": {
          "logid": "20241210152726467C48D89D6DB2F3***"
      }
    }
    

合成增量语音

  • 事件类型speech.audio.update

  • 事件说明:语音合成产生增量语音时,返回此事件。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 speech.audio.update

    data

    Object

    必选

    事件数据,包含音频片段信息。

    data.delta

    String

    必选

    base64 编码后的音频片段。

    detail

    Object

    必选

    事件详情。

    detail.logid

    String

    必选

    本次请求的日志 ID。如果遇到异常报错场景,且反复重试仍然报错,可以根据此 logid 及错误码联系扣子团队获取帮助。详细说明可参考获取帮助和技术支持。

  • 事件示例

    {
      "id": "event_id",
      "event_type": "speech.audio.update",
      "data": {
          "delta": "base64EncodedAudioDelta"
      },
      "detail": {
          "logid": "20241210152726467C48D89D6DB2F3***"  }
    }
    

合成完成

  • 事件类型speech.audio.completed

  • 事件说明:语音合成完成后,返回此事件。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    客户端自行生成的事件 ID,方便定位问题。

    event_type

    String

    必选

    固定为 speech.audio.completed

    detail

    Object

    必选

    事件详情。

    detail.logid

    String

    必选

    本次请求的日志 ID。如果遇到异常报错场景,且反复重试仍然报错,可以根据此 logid 及错误码联系扣子团队获取帮助。详细说明可参考获取帮助和技术支持。

  • 事件示例

    {
      "id": "event_id",
      "event_type": "speech.audio.completed",
      "detail": {
          "logid": "20241210152726467C48D89D6DB2F3***"
      }
    }
    

发生错误

  • 事件类型error

  • 事件说明:对话过程中的错误事件。

  • 事件结构

    参数

    类型

    是否必选

    说明

    id

    String

    必选

    服务端生成的唯一 ID。

    event_type

    String

    必选

    固定为 error

    data

    Object

    必选

    事件数据,包含错误信息。

    data.code

    Integer

    必选

    错误码。

    data.msg

    String

    必选

    错误信息。

    detail

    Object

    必选

    事件详情。

    detail.logid

    String

    必选

    本次请求的日志 ID。如果遇到异常报错场景,且反复重试仍然报错,可以根据此 logid 及错误码联系扣子团队获取帮助。详细说明可参考获取帮助和技术支持。

  • 事件示例

    {
        "id": "event_1",
        "event_type": "error"
        "data": {
            "code": 1,
            "msg": "发生异常"
        },
        "detail": {
            "logid": "20241210152726467C48D89D6DB2F3***"
        }
    }