> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

在智能语音交互领域，语音合成和语音识别是最常见的两种语音技术。语音合成指将文本转换为音频片段，语音识别指将语音信号转换为文本。
:::tip 说明
扣子提供 WebSocket OpenAPI 以实现双向流式的语音识别与语音合成，详细信息可参考[基于 WebSocket OpenAPI 实现音频通话](/dev_how_to_guides/websocket_openapi)。
:::
## 语音合成 {#2827037f}
语音合成是一种将文本转换为语音的技术。它通过计算机程序将文字内容转换成自然流畅的语音输出，使用户能够听到文字内容的朗读。语音合成技术广泛应用于各种场景，如智能语音助手、导航系统、有声读物等。
扣子提供[语音合成](/developer_guides/text_to_speech)API，帮助你将指定的文本内容转为指定格式的语音片段，支持指定音频的音色、设置音频编码格式、语速、音频采样率等多种设置。 通过语音合成 API，你可以在实时交互场景中将文本转换为语音文件，为用户提供语音交互方式。
调用语音合成 API 时，必选的参数如下：

* input：合成语音的文本，经由 UTF-8 编码。长度限制为 1024 字节。
* voice_id：音频文件使用的音色 ID。你可以调用[查看音色列表](/developer_guides/list_voices) API，查看所有可用音色。目前扣子还提供各种语言的系统音色，详细信息可参考[系统音色列表](/dev_how_to_guides/sys_voice)。

调用语音合成 API 的示例如下：
```Shell
curl --location --request POST 'https://api.coze.cn/v1/audio/speech' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: application/json' \
-d '{
  "input": "你好呀",
  "voice_id": "742894*********",
  "response_format": "wav"
}' 
--output speech.wav
```

## 语音识别 {#0a662d32}
语音识别是一种将语音信号转换为文本的技术。它通过计算机程序分析语音信号，识别其中的语音内容，并将其转换为文本形式。语音识别技术广泛应用于语音助手、语音输入、语音控制等领域。
扣子提供[语音识别](/developer_guides/audio_transcriptions) OpenAPI，帮助你将指定音频文件转录为文本。每个音频文件最大 20 MB，格式支持 ogg、mp3 和 wav。
调用语音识别 API 时，应在 Body 的 file 参数中使用 multipart/form-data 方式上传音频文件。语音识别出的文本内容将通过 `data.text` 字段返回。调用示例如下：
```Shell
curl --location --request POST 'https://api.coze.cn/v1/audio/transcriptions' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: multipart/form-data' \
--form 'file=@"/xx/xx/xx/jay.MP3"'
```

