语音合成是一种将文本转换为语音的技术。它通过计算机程序将文字内容转换成自然流畅的语音输出，使用户能够听到文字内容的朗读。语音合成技术广泛应用于各种场景，如智能语音助手、导航系统、有声读物等。
扣子提供语音合成API，帮助你将指定的文本内容转为指定格式的语音片段，支持指定音频的音色、设置音频编码格式、语速、音频采样率等多种设置。通过语音合成 API，你可以在实时交互场景中将文本转换为语音文件，为用户提供语音交互方式。
调用语音合成 API 时，必选的参数如下：

input：合成语音的文本，经由 UTF-8 编码。长度限制为 1024 字节。
voice_id：音频文件使用的音色 ID。你可以调用查看音色列表 API，查看所有可用音色。目前扣子还提供各种语言的系统音色，详细信息可参考系统音色列表。

调用语音合成 API 的示例如下：

curl --location --request POST 'https://api.coze.cn/v1/audio/speech' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: application/json' \
-d '{
  "input": "你好呀",
  "voice_id": "742894*********",
  "response_format": "wav"
}' 
--output speech.wav

语音识别

语音识别是一种将语音信号转换为文本的技术。它通过计算机程序分析语音信号，识别其中的语音内容，并将其转换为文本形式。语音识别技术广泛应用于语音助手、语音输入、语音控制等领域。
扣子提供语音识别 OpenAPI，帮助你将指定音频文件转录为文本。每个音频文件最大 20 MB，格式支持 ogg、mp3 和 wav。
调用语音识别 API 时，应在 Body 的 file 参数中使用 multipart/form-data 方式上传音频文件。语音识别出的文本内容将通过 data.text 字段返回。调用示例如下：

curl --location --request POST 'https://api.coze.cn/v1/audio/transcriptions' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: multipart/form-data' \
--form 'file=@"/xx/xx/xx/jay.MP3"'