智能音视频概述

更新于: 2026-06-25 19:29:14

智能语音作为 AI 应用的一种重要交互形式，现已广泛作用到各个领域，例如语音客服、智能家居等等。随着多模态模型的逐渐成熟、语音识别能力的技术突破，智能语音系统也越来越准确和高效。
扣子现推出智能语音 OpenAPI，配合火山方舟提供的视觉理解模型，开发者可以在 Web、App、小程序、终端硬件上集成扣子智能语音和视频识别能力，使终端用户能够和扣子上的智能体进行实时音视频通话。同时，扣子也提供了语音消息、音色复刻的相关 API，帮助开发者管理音色，提升通话效果。各端接入的 SDK 也陆续上线中，使音视频能力的接入变得更加简单。
扣子智能音视频集成了火山引擎实时音视频 RTC 的音视频通信能力，基于优质的全球传输网络实现超低延时，支持自动噪声抑制，以更低的功耗实现更好的音视频通话效果。除此之外，扣子还提供了 WebSocket OpenAPI，支持通过 WebSocket 协议实现智能语音对话。

功能原理

扣子智能音视频功能将视觉模型的视觉理解能力和扣子智能语音 OpenAPI 相结合，提供流畅高效的智能体互动体验。集成扣子智能音视频方案后，用户通过终端 SDK 发起音视频通话请求，和 AI 智能体一起加入音视频通话房间。AI 智能体接收到用户的音视频流后，从视频中抽取关键帧，将抽取的帧图像数据传递给视觉模型进行深度理解与分析。模型会根据理解的结果生成相应的响应，并将这一响应结果反馈给用户，从而实现用户与 AI 智能体之间的流畅对话交互。
音视频通话的设备鉴权流程如下：

RTC 场景

WebSocket 场景

效果演示

扣子音视频通话是在实时语音通话的基础上，通过视觉模型实现视觉理解的能力，根据用户的视频流内容做出对应的反馈。

功能特性

低延迟、可打断：智能音视频功能使用火山引擎 RTC 方案，有效降低通话延迟，即使在弱网络环境下也能保障通话质量。此外，智能体能毫秒级响应用户打断，流畅切换话题并即时反馈，模拟人类之间的自然交流。火山引擎 RTC 的 AI 降噪可有效过滤超过 90% 的背景噪音，减少误打断，提升对话准确度。
自然的语音效果：语音合成能力使用豆包语音大模型的 TTS 进行文本转语音，根据上下文智能预测文本的情绪、语调等信息，生成超自然、高保真、个性化的语音，在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人，即使是中英文混说也能行云流水应答自如。
流畅的交互体验：视觉模型支持低延时的视频理解，可以分析视频通话中的画面内容，更全面地理解用户的意图，并根据用户所在的场景、人物动作生成对应的描述或反馈、建议或提示，使交互更加连贯和自然。
支持多平台快速接入：提供 OpenAPI、多语言 SDK 等多种接入方案，推出高度封装的 Realtime SDK，建立连接后即可发起智能音视频通话。

应用场景

扣子智能音视频解决方案接入了火山引擎视频云 RTC，实现了低延时、高质量的实时音视频通话能力，让智能体从“能说话”升级成了“会交流”。基于扣子智能音视频方案，可以实现多种应用场景，例如：

消费场景：主要包括智慧家居、智能驾驶、智能穿戴等场景，将智能语音技术和各类终端相结合，共同构建 AIoT 大生态。智能音箱、智能家电、车载智能助手等都是消费场景的典型案例，丰富终端用户的日常生活。
企业场景：包括智慧教育、智慧医疗、金融、电商、教培等在内的垂直领域场景，例如智能语音客服、AI 电话销售、智能医疗助手等典型案例。

费用说明

在使用扣子智能音视频相关服务时，会产生相应的语音费用，包括语音合成、语音识别、音频通话、视频通话等。详细说明，请参考音视频费用。

扣子为每个企业版账号（主账号+子账号）提供总价值约 300 元的免费额度，用于音视频功能试用。各计费项的具体免费额度请参考音视频费用。
声音复刻的免费额度不包含在 300 元通用免费额度内。