扣子

扣子扣子编程扣子罗盘资源

文档反馈

低代码项目

快速开始

智能体

工作流

应用

资源

发布

模型

多人协作

开发工具

Coze CLI

API 参考

SDK 参考

音视频

智能音视频概述

体验智能音视频 Demo

音视频接入方案对比

基于 WebSocket 实现音频通话

基于 RTC 实现音视频通话

基于 HTTP 请求实现语音消息

语音与音色

终端用户用量管控

音视频常见问题

推广与变现

常见问题

体验智能音视频 Demo

更新于: 2026-06-25 19:29:14

扣子提供 Realtime Chat Playground，你可以通过语音通话或视频通话的方式与你的智能体实时对话。Playground 支持切换多种克隆音色，通话过程中你还可以随时打断智能体的回复。

体验智能语音通话

单击此处探索智能语音 Playground。
智能语音 Playground 不仅提供了实时语音效果的演示，支持探索不同音色、通过克隆功能实现理想音色的互动体验。此外，Playground 实时展示各类通话事件，帮助你理解每一个信令的含义与逻辑。
访问 Playground 时，只需根据页面提示完成授权，并选择你的智能体所在空间、智能体名称即可开始体验。具体操作方式如下：

步骤一：填写配置

访问 Realtime Playground，并填写以下配置项，然后单击确认。

配置	说明
访问令牌	扣子 API & SDK 通过访问令牌进行 API & SDK 请求的鉴权。直接单击授权按钮，或输入个人访问令牌。个人访问令牌的获取方式可参考添加个人访问令牌，注意应为令牌授予 chat、createVoice 和 listVoice 的权限。
智能体	选择一个希望与其对话的智能体。如果你通过授权按钮获得了一个临时访问令牌，则可以从智能体列表中选择目标智能体。如果你直接填写了个人访问密钥，则需要手动输入智能体 ID。智能体 ID 可在开发页面 URL 中的 “bot” 参数后找到。
语音模型	选择语音通话时使用的模型：大模型：上下文理解准确，语音合成的情绪与语气表现力佳，对中英混说等场景支持更优。推荐使用大模型。小模型：成本低，支持更多小语种和方言。端到端：支持语音输入到语音输出的实时语音交互，具备超拟人、低时延、精准理解语音指令的能力，适用于智能语音助手、智能客服、语音交互游戏、教育培训等场景。说明端到端模型仅白名单用户可以使用。如需开通权限，请联系商务经理办理。
音色	选择智能体使用的音色，可以选择预设音色或资源库音色。系统音色：扣子提供的默认音色，可以单击音色试听。资源库音色：资源库中已有的自定义音色。如果没有想要的音色，可以单击克隆音色，根据页面提示上传语音文件或录制音频进行音色克隆。克隆成功后，音色将在下拉列表中显示。
声纹识别	开启声纹识别后，在语音通话过程中，扣子能够从声纹组中匹配说话人的身份，并将匹配到的身份信息传递至智能体。智能体依据声纹信息，可实现差异化响应。说明开启声纹识别功能后，用户与智能体进行音视频通话时，将产生声纹识别费用，详细费用说明可参考音视频费用。
声纹组	选择已创建的声纹组。如果没有对应的声纹组，你可以创建声纹组，具体请参见声纹识别。
命中阈值	设置声音匹配度的最低标准。当声音匹配度达到或超过该阈值时，扣子才会认定声纹匹配成功。你可以根据应用的安全性要求进行自定义设置。如果匹配了多轮声纹，扣子会取相似度最高的一个。取值范围：0~100，默认值：40。
端插件策略	指定扣子如何处理端插件报错，包括直接返回错误信息或取消最近一次未完成的操作。仅在智能体绑定了端插件时生效。
降噪设置	默认为稳态降噪，可针对稳态噪声（如空调、风扇）或非稳态噪声（如键盘敲击）定向降噪。

步骤二：发起通话

单击开始对话，向指定智能体发起实时语音通话。

说明

实时语音通话需要获取设备的麦克风权限，如果页面提示 [DEVICE_ACCESS_ERROR] Failed to get audio devices，表示浏览器禁用了麦克风设备。

开启麦克风后，和扣子智能体开始语音通话。页面中会实时展示对话的消息记录、触发的事件列表，你也可以直接手动输入一条消息发送给智能体。

各个区域的详细说明如下：

区域	说明
①对话	和智能体的对话区域，实时展示智能体对话记录。支持随时打断回复、关闭麦克风、结束对话。
②事件	对话事件列表，实时展示当前对话触发的每一条信令事件，帮助用户理解对话中每个动作和事件的对应关系。
③设置	重新设置访问令牌、智能体、音色等配置。
④手动输入	手动输入一条消息发送给智能体，可以通过此处发送包含图片、文件等多模态内容的消息。具体的传参方式可参考object_string object。

步骤三：结束对话

在对话区域单击退出，可以结束本次通话。

体验实时音视频通话

说明

体验实时音视频通话之前，你需要先为智能体设置视觉模型，推荐使用豆包视觉理解模型。

步骤一：填写配置

单击此处探索实时音视频 Playground。首次访问时需要根据页面提示完成授权，选择工作空间和智能体、音色等对话配置，选择完毕后即可开始视频通话。

步骤二：发起通话

单击 Connect，发起视频通话。页面提示 Connected 表示连接成功，你可以和智能体开始对话。智能体会从你的视频流中抽取关键帧，并传给视觉模型进行理解和分析，以结合画面内容回复你的问题。
Playground 也提供了实时的事件列表展示、消息内容展示，你可以结合通话内容和具体操作理解各个信令事件的含义。

步骤三：结束对话

单击 Disconnect，立即结束本次通话。