扣子提供 Realtime Chat Playground,你可以通过语音通话或视频通话的方式与你的智能体实时对话。Playground 支持切换多种克隆音色,通话过程中你还可以随时打断智能体的回复。
单击此处探索智能语音 Playground。
智能语音 Playground 不仅提供了实时语音效果的演示,支持探索不同音色、通过克隆功能实现理想音色的互动体验。此外,Playground 实时展示各类通话事件,帮助你理解每一个信令的含义与逻辑。
访问 Playground 时,只需根据页面提示完成授权,并选择你的智能体所在空间、智能体名称即可开始体验。具体操作方式如下:
访问 Realtime Playground,并填写以下配置项,然后单击确认。
|
配置 |
说明 |
|---|---|
|
访问令牌 |
扣子 API & SDK 通过访问令牌进行 API & SDK 请求的鉴权。 |
|
智能体 |
选择一个希望与其对话的智能体。
|
|
语音模型 |
选择语音通话时使用的模型:
说明 端到端模型仅白名单用户可以使用。如需开通权限,请联系商务经理办理。 |
|
音色 |
选择智能体使用的音色,可以选择预设音色或资源库音色。
如果没有想要的音色,可以单击克隆音色,根据页面提示上传语音文件或录制音频进行音色克隆。克隆成功后,音色将在下拉列表中显示。 |
|
声纹识别 |
开启声纹识别后,在语音通话过程中,扣子能够从声纹组中匹配说话人的身份,并将匹配到的身份信息传递至智能体。智能体依据声纹信息,可实现差异化响应。 说明 开启声纹识别功能后,用户与智能体进行音视频通话时,将产生声纹识别费用,详细费用说明可参考音视频费用。 |
|
声纹组 |
选择已创建的声纹组。如果没有对应的声纹组,你可以创建声纹组,具体请参见声纹识别。 |
|
命中阈值 |
设置声音匹配度的最低标准。当声音匹配度达到或超过该阈值时,扣子才会认定声纹匹配成功。你可以根据应用的安全性要求进行自定义设置。如果匹配了多轮声纹,扣子会取相似度最高的一个。 |
|
端插件策略 |
指定扣子如何处理端插件报错,包括直接返回错误信息或取消最近一次未完成的操作。 |
|
降噪设置 |
默认为稳态降噪,可针对稳态噪声(如空调、风扇)或非稳态噪声(如键盘敲击)定向降噪。 |
单击开始对话,向指定智能体发起实时语音通话。
说明
实时语音通话需要获取设备的麦克风权限,如果页面提示 [DEVICE_ACCESS_ERROR] Failed to get audio devices,表示浏览器禁用了麦克风设备。
开启麦克风后,和扣子智能体开始语音通话。页面中会实时展示对话的消息记录、触发的事件列表,你也可以直接手动输入一条消息发送给智能体。
各个区域的详细说明如下:
|
区域 |
说明 |
|---|---|
|
①对话 |
和智能体的对话区域,实时展示智能体对话记录。支持随时打断回复、关闭麦克风、结束对话。 |
|
②事件 |
对话事件列表,实时展示当前对话触发的每一条信令事件,帮助用户理解对话中每个动作和事件的对应关系。 |
|
③设置 |
重新设置访问令牌、智能体、音色等配置。 |
|
④手动输入 |
手动输入一条消息发送给智能体,可以通过此处发送包含图片、文件等多模态内容的消息。具体的传参方式可参考object_string object。 |
在对话区域单击退出,可以结束本次通话。
说明
体验实时音视频通话之前,你需要先为智能体设置视觉模型,推荐使用豆包视觉理解模型。
单击此处探索实时音视频 Playground。首次访问时需要根据页面提示完成授权,选择工作空间和智能体、音色等对话配置,选择完毕后即可开始视频通话。
单击 Connect,发起视频通话。页面提示 Connected 表示连接成功,你可以和智能体开始对话。智能体会从你的视频流中抽取关键帧,并传给视觉模型进行理解和分析,以结合画面内容回复你的问题。
Playground 也提供了实时的事件列表展示、消息内容展示,你可以结合通话内容和具体操作理解各个信令事件的含义。
单击 Disconnect,立即结束本次通话。