助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈
低代码项目
快速开始
智能体
工作流
应用
资源
发布
模型
多人协作
开发工具
Coze CLI
API 参考
SDK 参考
音视频
基于 WebSocket 实现音频通话
基于 RTC 实现音视频通话
语音与音色
终端用户用量管控
推广与变现

智能音视频概述

更新于: 2026-06-25 19:29:14

智能语音作为 AI 应用的一种重要交互形式,现已广泛作用到各个领域,例如语音客服、智能家居等等。随着多模态模型的逐渐成熟、语音识别能力的技术突破,智能语音系统也越来越准确和高效。
扣子现推出智能语音 OpenAPI,配合火山方舟提供的视觉理解模型,开发者可以在 Web、App、小程序、终端硬件上集成扣子智能语音和视频识别能力,使终端用户能够和扣子上的智能体进行实时音视频通话。同时,扣子也提供了语音消息、音色复刻的相关 API,帮助开发者管理音色,提升通话效果。各端接入的 SDK 也陆续上线中,使音视频能力的接入变得更加简单。
扣子智能音视频集成了火山引擎实时音视频 RTC 的音视频通信能力,基于优质的全球传输网络实现超低延时,支持自动噪声抑制,以更低的功耗实现更好的音视频通话效果。 除此之外,扣子还提供了 WebSocket OpenAPI,支持通过 WebSocket 协议实现智能语音对话。

功能原理

扣子智能音视频功能将视觉模型的视觉理解能力和扣子智能语音 OpenAPI 相结合,提供流畅高效的智能体互动体验。集成扣子智能音视频方案后,用户通过终端 SDK 发起音视频通话请求,和 AI 智能体一起加入音视频通话房间。AI 智能体接收到用户的音视频流后,从视频中抽取关键帧,将抽取的帧图像数据传递给视觉模型进行深度理解与分析。模型会根据理解的结果生成相应的响应,并将这一响应结果反馈给用户,从而实现用户与 AI 智能体之间的流畅对话交互。
音视频通话的设备鉴权流程如下:

RTC 场景
Image

WebSocket 场景
Image

效果演示

扣子音视频通话是在实时语音通话的基础上,通过视觉模型实现视觉理解的能力,根据用户的视频流内容做出对应的反馈。

功能特性

  • 低延迟、可打断:智能音视频功能使用火山引擎 RTC 方案,有效降低通话延迟,即使在弱网络环境下也能保障通话质量。此外,智能体能毫秒级响应用户打断,流畅切换话题并即时反馈,模拟人类之间的自然交流。火山引擎 RTC 的 AI 降噪可有效过滤超过 90% 的背景噪音,减少误打断,提升对话准确度。
  • 自然的语音效果:语音合成能力使用豆包语音大模型的 TTS 进行文本转语音,根据上下文智能预测文本的情绪、语调等信息,生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人,即使是中英文混说也能行云流水应答自如。
  • 流畅的交互体验:视觉模型支持低延时的视频理解,可以分析视频通话中的画面内容,更全面地理解用户的意图,并根据用户所在的场景、人物动作生成对应的描述或反馈、建议或提示,使交互更加连贯和自然。
  • 支持多平台快速接入:提供 OpenAPI、多语言 SDK 等多种接入方案,推出高度封装的 Realtime SDK,建立连接后即可发起智能音视频通话。

应用场景

扣子智能音视频解决方案接入了火山引擎视频云 RTC,实现了低延时、高质量的实时音视频通话能力,让智能体从“能说话”升级成了“会交流”。基于扣子智能音视频方案,可以实现多种应用场景,例如:

  • 消费场景:主要包括智慧家居、智能驾驶、智能穿戴等场景,将智能语音技术和各类终端相结合,共同构建 AIoT 大生态。智能音箱、智能家电、车载智能助手等都是消费场景的典型案例,丰富终端用户的日常生活。
  • 企业场景:包括智慧教育、智慧医疗、金融、电商、教培等在内的垂直领域场景,例如智能语音客服、AI 电话销售、智能医疗助手等典型案例。

费用说明

在使用扣子智能音视频相关服务时,会产生相应的语音费用,包括语音合成、语音识别、音频通话、视频通话等。详细说明,请参考音视频费用

  • 扣子为每个企业版账号(主账号+子账号)提供总价值约 300 元的免费额度,用于音视频功能试用。各计费项的具体免费额度请参考音视频费用
  • 声音复刻的免费额度不包含在 300 元通用免费额度内。