助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈
低代码项目
快速开始
智能体
工作流
应用
资源
发布
模型
多人协作
开发工具
Coze CLI
API 参考
SDK 参考
推广与变现

语音合成与识别

更新于: 2026-06-25 19:29:14

在智能语音交互领域,语音合成和语音识别是最常见的两种语音技术。语音合成指将文本转换为音频片段,语音识别指将语音信号转换为文本。

说明

扣子提供 WebSocket OpenAPI 以实现双向流式的语音识别与语音合成,详细信息可参考基于 WebSocket OpenAPI 实现音频通话

语音合成

语音合成是一种将文本转换为语音的技术。它通过计算机程序将文字内容转换成自然流畅的语音输出,使用户能够听到文字内容的朗读。语音合成技术广泛应用于各种场景,如智能语音助手、导航系统、有声读物等。
扣子提供语音合成API,帮助你将指定的文本内容转为指定格式的语音片段,支持指定音频的音色、设置音频编码格式、语速、音频采样率等多种设置。 通过语音合成 API,你可以在实时交互场景中将文本转换为语音文件,为用户提供语音交互方式。
调用语音合成 API 时,必选的参数如下:

  • input:合成语音的文本,经由 UTF-8 编码。长度限制为 1024 字节。
  • voice_id:音频文件使用的音色 ID。你可以调用查看音色列表 API,查看所有可用音色。目前扣子还提供各种语言的系统音色,详细信息可参考系统音色列表

调用语音合成 API 的示例如下:

curl --location --request POST 'https://api.coze.cn/v1/audio/speech' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: application/json' \
-d '{
  "input": "你好呀",
  "voice_id": "742894*********",
  "response_format": "wav"
}' 
--output speech.wav

语音识别

语音识别是一种将语音信号转换为文本的技术。它通过计算机程序分析语音信号,识别其中的语音内容,并将其转换为文本形式。语音识别技术广泛应用于语音助手、语音输入、语音控制等领域。
扣子提供语音识别 OpenAPI,帮助你将指定音频文件转录为文本。每个音频文件最大 20 MB,格式支持 ogg、mp3 和 wav。
调用语音识别 API 时,应在 Body 的 file 参数中使用 multipart/form-data 方式上传音频文件。语音识别出的文本内容将通过 data.text 字段返回。调用示例如下:

curl --location --request POST 'https://api.coze.cn/v1/audio/transcriptions' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: multipart/form-data' \
--form 'file=@"/xx/xx/xx/jay.MP3"'