开发工具/音视频/语音与音色/语音合成与识别
语音合成与识别
更新于: 2026-06-25 19:29:14
在智能语音交互领域,语音合成和语音识别是最常见的两种语音技术。语音合成指将文本转换为音频片段,语音识别指将语音信号转换为文本。
说明
扣子提供 WebSocket OpenAPI 以实现双向流式的语音识别与语音合成,详细信息可参考基于 WebSocket OpenAPI 实现音频通话。
语音合成是一种将文本转换为语音的技术。它通过计算机程序将文字内容转换成自然流畅的语音输出,使用户能够听到文字内容的朗读。语音合成技术广泛应用于各种场景,如智能语音助手、导航系统、有声读物等。
扣子提供语音合成API,帮助你将指定的文本内容转为指定格式的语音片段,支持指定音频的音色、设置音频编码格式、语速、音频采样率等多种设置。 通过语音合成 API,你可以在实时交互场景中将文本转换为语音文件,为用户提供语音交互方式。
调用语音合成 API 时,必选的参数如下:
调用语音合成 API 的示例如下:
curl --location --request POST 'https://api.coze.cn/v1/audio/speech' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: application/json' \
-d '{
"input": "你好呀",
"voice_id": "742894*********",
"response_format": "wav"
}'
--output speech.wav
语音识别是一种将语音信号转换为文本的技术。它通过计算机程序分析语音信号,识别其中的语音内容,并将其转换为文本形式。语音识别技术广泛应用于语音助手、语音输入、语音控制等领域。
扣子提供语音识别 OpenAPI,帮助你将指定音频文件转录为文本。每个音频文件最大 20 MB,格式支持 ogg、mp3 和 wav。
调用语音识别 API 时,应在 Body 的 file 参数中使用 multipart/form-data 方式上传音频文件。语音识别出的文本内容将通过 data.text 字段返回。调用示例如下:
curl --location --request POST 'https://api.coze.cn/v1/audio/transcriptions' \
--header 'Authorization: Bearer pat_OYDacMzM3WyOWV3Dtj2bHRMymzxP****' \
--header 'Content-Type: multipart/form-data' \
--form 'file=@"/xx/xx/xx/jay.MP3"'