> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

智能语音作为 AI 应用的一种重要交互形式，现已广泛作用到各个领域，例如语音客服、智能家居等等。随着多模态模型的逐渐成熟、语音识别能力的技术突破，智能语音系统也越来越准确和高效。
扣子现推出智能语音 OpenAPI，配合火山方舟提供的视觉理解模型，开发者可以在 Web、App、小程序、终端硬件上集成扣子智能语音和视频识别能力，使终端用户能够和扣子上的智能体进行实时音视频通话。同时，扣子也提供了语音消息、音色复刻的相关 API，帮助开发者管理音色，提升通话效果。各端接入的 SDK 也陆续上线中，使音视频能力的接入变得更加简单。
扣子智能音视频集成了火山引擎实时音视频 RTC 的音视频通信能力，基于优质的全球传输网络实现超低延时，支持自动噪声抑制，以更低的功耗实现更好的音视频通话效果。 除此之外，扣子还提供了 WebSocket OpenAPI，支持通过 WebSocket 协议实现智能语音对话。
## 功能原理 {#f84dacb3}
扣子智能音视频功能将视觉模型的视觉理解能力和扣子智能语音 OpenAPI 相结合，提供流畅高效的智能体互动体验。集成扣子智能音视频方案后，用户通过终端 SDK 发起音视频通话请求，和 AI 智能体一起加入音视频通话房间。AI 智能体接收到用户的音视频流后，从视频中抽取关键帧，将抽取的帧图像数据传递给视觉模型进行深度理解与分析。模型会根据理解的结果生成相应的响应，并将这一响应结果反馈给用户，从而实现用户与 AI 智能体之间的流畅对话交互。
音视频通话的设备鉴权流程如下：

::::cols
@col 50
RTC 场景
![Image=500x311](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/b90177359c8544c8a7261410404f8988~tplv-goo7wpa0wc-image.image)


@col 50
WebSocket 场景
![Image=500x321](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/08e8dee9cda34cd6b21208845a3fd8f0~tplv-goo7wpa0wc-image.image)

::::

## 效果演示 {#8169d9fa}

:::: tabs
@tab 实时语音通话
<Player src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/6176da248c5d4d879f67317c61e890dc~tplv-goo7wpa0wc-image.image"></Player>

@tab 实时音视频通话
扣子音视频通话是在实时语音通话的基础上，通过视觉模型实现视觉理解的能力，根据用户的视频流内容做出对应的反馈。
<Player src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/152f07ebc5f14d658c20d7eac745ae42~tplv-goo7wpa0wc-image.image"></Player>


@tab 打断对话
<Player src="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/937ce803206a42c08d4c86354c8531c4~tplv-goo7wpa0wc-image.image"></Player>

::::

## 功能特性 {#b161866d}

* **低延迟、可打断**：智能音视频功能使用火山引擎 RTC 方案，有效降低通话延迟，即使在弱网络环境下也能保障通话质量。此外，智能体能毫秒级响应用户打断，流畅切换话题并即时反馈，模拟人类之间的自然交流。火山引擎 RTC 的 AI 降噪可有效过滤超过 90% 的背景噪音，减少误打断，提升对话准确度。
* **自然的语音效果**：语音合成能力使用豆包语音大模型的 TTS 进行文本转语音，根据上下文智能预测文本的情绪、语调等信息，生成超自然、高保真、个性化的语音，在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人，即使是中英文混说也能行云流水应答自如。
* **流畅的交互体验**：视觉模型支持低延时的视频理解，可以分析视频通话中的画面内容，更全面地理解用户的意图，并根据用户所在的场景、人物动作生成对应的描述或反馈、建议或提示，使交互更加连贯和自然。
* **支持多平台快速接入**：提供  OpenAPI、多语言 SDK 等多种接入方案，推出高度封装的 Realtime SDK，建立连接后即可发起智能音视频通话。

## 应用场景 {#57f984a2}
扣子智能音视频解决方案接入了火山引擎视频云 RTC，实现了低延时、高质量的实时音视频通话能力，让智能体从“能说话”升级成了“会交流”。基于扣子智能音视频方案，可以实现多种应用场景，例如：

* 消费场景：主要包括智慧家居、智能驾驶、智能穿戴等场景，将智能语音技术和各类终端相结合，共同构建 AIoT 大生态。智能音箱、智能家电、车载智能助手等都是消费场景的典型案例，丰富终端用户的日常生活。
* 企业场景：包括智慧教育、智慧医疗、金融、电商、教培等在内的垂直领域场景，例如智能语音客服、AI 电话销售、智能医疗助手等典型案例。

## 费用说明 {#242c423f}
在使用扣子智能音视频相关服务时，会产生相应的语音费用，包括语音合成、语音识别、音频通话、视频通话等。详细说明，请参考[音视频费用](/coze_pro/asr_tts_fee)。

* 扣子为每个**企业版**账号（主账号+子账号）提供总价值约 300 元的免费额度，用于音视频功能试用。各计费项的具体免费额度请参考[音视频费用](/coze_pro/asr_tts_fee)。
* 声音复刻的免费额度不包含在 300 元通用免费额度内。