扣子

扣子扣子编程扣子罗盘资源

文档反馈

低代码项目

快速开始

智能体

工作流

应用

资源

发布

模型

多人协作

开发工具

Coze CLI

API 参考

SDK 参考

音视频

智能音视频概述

体验智能音视频 Demo

音视频接入方案对比

基于 WebSocket 实现音频通话

基于 RTC 实现音视频通话

基于 HTTP 请求实现语音消息

语音与音色

终端用户用量管控

音视频常见问题

推广与变现

常见问题

音视频接入方案对比

更新于: 2026-06-25 19:29:14

在智能语音领域，WebSocket 、 RTC 和 HTTP 是广泛应用于实现实时通信的技术。它们各自具有独特的特性和适用场景，开发者可以根据具体需求选择合适的技术方案。

技术概述

WebSocket

WebSocket 是一种全双工通信协议，基于 TCP 建立持久化连接，允许服务器与客户端实时双向通信。客户端通过 WebSocket 协议与服务器握手建立连接。

RTC

集成了火山引擎实时音视频 RTC 的音视频通信能力，基于优质的全球传输网络实现超低延时，支持自动噪声抑制，以更低的功耗实现更好的音视频通话效果。

HTTP

基于成熟的 HTTP 协议，开发相对简单，不需要处理复杂的实时传输和音视频编码问题。通过 HTTP 协议将语音消息上传至扣子服务端。智能体接收音频文件后，由大模型生成语音形式的回复。

应用场景

WebSocket

适用于仅需语音通话和语音消息交互，无需视频通话的场景，例如：

实时语音助手：适用于智能音箱的指令响应、车载语音控制系统等场景，提供快速、实时的语音交互体验。
轻量级语音交互：适用于在线客服机器人、游戏内的语音聊天功能，满足用户在无需视频交互时的语音沟通需求。
IoT 设备控制：用于智能家居设备的语音指令下发与状态反馈，实现设备的智能化控制。
智能语音客服：通过 AI 实时对话代替人工坐席，自动受理客户咨询与投诉，提供 7 × 24 小时无等候的即时响应服务，降低企业运营成本，提升客户满意度。
AI 电话销售：利用 AI 技术实现自动化的电话销售，提高效率并节省人力成本。
情感陪伴：用于虚拟伴侣、角色扮演等场景，提供实时语音互动，增强用户的陪伴感。

RTC

适用于需要视频通话，且对音视频质量和实时性要求较高的 AI 交互场景，凭借其低延迟和良好的网络适应性，提供优质的音视频体验，例如：

智能客服：代替人工坐席自动受理客户咨询与投诉，提供 7 × 24 小时无等候的即时响应服务，降低企业运营成本，提升客户满意度。
AI 电话销售：通过低延迟的音视频通话，提升销售沟通的效率和体验，提高转化率。
情感陪伴：在虚拟伴侣、角色扮演等场景中提供实时音视频互动，增强用户的沉浸感和陪伴感。
在线培训与指导：支持多人音视频交互，满足实时教学和指导的需求，例如用户可以向虚拟教学助手提问，获得补充讲解，更充分地理解学习要点。

HTTP

适用于对实时性要求不高，主要以语音消息传递为主的场景，例如：

非实时语音消息：微信式语音留言、语音信箱、社交应用异步回复。
语音数据分析：客服录音批量质检、用户语音情感分析。

接入方案对比

为了帮助开发者更好地选择合适的技术方案，以下是对 WebSocket、RTC 和 HTTP 三种接入方案的详细对比。

接入方案	WebSocket	RTC	HTTP
接入方式	通过 WebSocket 协议自行实现接入	通过火山引擎 RTC SDK 实现接入	通过标准 HTTP 接口实现接入
是否支持视频通话	不支持	支持	不支持
是否支持语音消息	支持	不支持	支持
是否支持打断	支持按键打断支持语音打断	支持按键打断支持语音打断	不涉及
语音传输方式	双向流式	双向流式	单向传输，异步消息
是否支持图片输入	支持通过手动提交对话内容发送图片消息	支持通过手动提交对话内容发送图片消息	支持
语音通话过程中识别图片	不支持	不支持	不涉及
是否支持实时字幕	支持	支持	不支持
是否支持声音复刻	支持	支持	不支持
音视频费用	语音合成和语音识别费用，不涉及音视频通话费用，具体计费请参见音视频费用。	相比 WebSocket 方式费用会更高，除了语音合成和语音识别费用，还包括音视频通话费用，具体计费请参见音视频费用。	不涉及
对芯片平台的要求	无	有	无

体验智能音视频 Demo

基于 WebSocket OpenAPI 实现音频通话