开发工具/API 参考/智能音视频/ASR、TTS 与音色/语音合成
语音合成
更新于: 2026-06-25 19:29:14
将指定文本合成为音频文件。
此 API 用于将指定文本内容合成为自然流畅的音频,同步返回合成的音频文件,适用于有声书合成、智能客服语音、音视频配音等场景。合成音频文件之前,可以先调用查看音色列表 API,查看所有可用音色。
注意
调用语音合成 API 会产生语音合成费用,具体费用详情请参考音视频费用。
|
请求方式 |
POST |
|---|---|
|
请求地址 |
|
|
权限 |
|
|
接口说明 |
将指定文本合成为音频文件。 |
|
参数 |
取值 |
说明 |
|---|---|---|
|
Authorization |
Bearer $Access_Token |
用于验证客户端身份的访问令牌。你可以在扣子编程中生成访问令牌,详细信息,参考准备工作。 |
|
Content-Type |
application/json |
解释请求正文的方式。 |
|
参数 |
类型 |
是否必选 |
示例 |
说明 |
|---|---|---|---|---|
|
input |
String |
必选 |
今天天气怎么样 |
合成语音的文本,经由 UTF-8 编码。长度限制为 1024 字节。 |
|
voice_id |
String |
必选 |
742894******** |
音频文件使用的音色 ID。 |
|
emotion |
String |
可选 |
happy |
设置多情感音色的情感类型,仅当
|
|
emotion_scale |
Double |
可选 |
3 |
情感值用于量化情感的强度。数值越高,情感表达越强烈,例如: “开心” 的情感值 5 比 1 更显兴奋。 |
|
response_format |
String |
可选 |
mp3 |
音频文件的编码格式,支持设置为:
|
|
speed |
Double |
可选 |
1 |
语速,大模型音色的取值范围为 0.5~2,小模型音色的取值范围为 0.2~3,通常保留一位小数即可。 |
|
sample_rate |
Integer |
可选 |
24000 |
音频采样率,单位为 Hz。
|
|
loudness_rate |
Integer |
可选 |
30 |
音频输出音量的增益或衰减比例,以百分比形式表示。取值范围为
|
|
context_texts |
String |
可选 |
用低沉沙哑的语气、带着沧桑与绝望地说 |
语音合成的辅助信息,用于控制合成语音的整体情绪(如悲伤、生气)、方言(如四川话、北京话)、语气(如撒娇、暧昧、吵架、夹子音)、语速(快慢)及音调(高低)等。 |
如果成功调用此 API,接口会直接返回语音文件的内容。
curl --location --request POST 'https://api.coze.cn/v1/audio/speech' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: application/json' \
-d '{
"input": "你好呀",
"voice_id": "742894*********",
"response_format": "wav"
}'
--output speech.wav
无
如果调用此 API 失败,返回信息中包含 code 和 msg 字段。其中 code 为非 0 的错误码,表示接口调用失败;msg 字段中包含详细错误信息,你可以参考错误码文档查看对应的解决方法。