助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈
低代码项目
快速开始
智能体
工作流
应用
资源
发布
模型
多人协作
开发工具
Coze CLI
API 参考
SDK 参考
音视频
基于 WebSocket 实现音频通话
基于 RTC 实现音视频通话
语音与音色
终端用户用量管控
推广与变现

音视频接入方案对比

更新于: 2026-06-25 19:29:14

在智能语音领域,WebSocket 、 RTC 和 HTTP 是广泛应用于实现实时通信的技术。它们各自具有独特的特性和适用场景,开发者可以根据具体需求选择合适的技术方案。

技术概述

WebSocket

WebSocket 是一种全双工通信协议,基于 TCP 建立持久化连接,允许服务器与客户端实时双向通信。客户端通过 WebSocket 协议与服务器握手建立连接。

RTC

集成了火山引擎实时音视频 RTC 的音视频通信能力,基于优质的全球传输网络实现超低延时,支持自动噪声抑制,以更低的功耗实现更好的音视频通话效果。

HTTP

基于成熟的 HTTP 协议,开发相对简单,不需要处理复杂的实时传输和音视频编码问题。通过 HTTP 协议将语音消息上传至扣子服务端。智能体接收音频文件后,由大模型生成语音形式的回复。

应用场景

WebSocket

适用于仅需语音通话和语音消息交互,无需视频通话的场景,例如:

  • 实时语音助手:适用于智能音箱的指令响应、车载语音控制系统等场景,提供快速、实时的语音交互体验。
  • 轻量级语音交互:适用于在线客服机器人、游戏内的语音聊天功能,满足用户在无需视频交互时的语音沟通需求。
  • IoT 设备控制:用于智能家居设备的语音指令下发与状态反馈,实现设备的智能化控制。
  • 智能语音客服:通过 AI 实时对话代替人工坐席,自动受理客户咨询与投诉,提供 7 × 24 小时无等候的即时响应服务,降低企业运营成本,提升客户满意度。
  • AI 电话销售:利用 AI 技术实现自动化的电话销售,提高效率并节省人力成本。
  • 情感陪伴:用于虚拟伴侣、角色扮演等场景,提供实时语音互动,增强用户的陪伴感。

RTC

适用于需要视频通话,且对音视频质量和实时性要求较高的 AI 交互场景,凭借其低延迟和良好的网络适应性,提供优质的音视频体验,例如:

  • 智能客服:代替人工坐席自动受理客户咨询与投诉,提供 7 × 24 小时无等候的即时响应服务,降低企业运营成本,提升客户满意度。
  • AI 电话销售:通过低延迟的音视频通话,提升销售沟通的效率和体验,提高转化率。
  • 情感陪伴:在虚拟伴侣、角色扮演等场景中提供实时音视频互动,增强用户的沉浸感和陪伴感。
  • 在线培训与指导:支持多人音视频交互,满足实时教学和指导的需求,例如用户可以向虚拟教学助手提问,获得补充讲解,更充分地理解学习要点。

HTTP

适用于对实时性要求不高,主要以语音消息传递为主的场景,例如:

  • 非实时语音消息:微信式语音留言、语音信箱、社交应用异步回复。
  • 语音数据分析:客服录音批量质检、用户语音情感分析。

接入方案对比

为了帮助开发者更好地选择合适的技术方案,以下是对 WebSocket、RTC 和 HTTP 三种接入方案的详细对比。

接入方案

WebSocket

RTC

HTTP

接入方式

通过 WebSocket 协议自行实现接入

通过火山引擎 RTC SDK 实现接入

通过标准 HTTP 接口实现接入

是否支持视频通话

不支持

支持

不支持

是否支持语音消息

支持

不支持

支持

是否支持打断

  • 支持按键打断
  • 支持语音打断
  • 支持按键打断
  • 支持语音打断

不涉及

语音传输方式

双向流式

双向流式

单向传输,异步消息

是否支持图片输入

支持通过手动提交对话内容发送图片消息

支持通过手动提交对话内容发送图片消息

支持

语音通话过程中识别图片

不支持

不支持

不涉及

是否支持实时字幕

支持

支持

不支持

是否支持声音复刻

支持

支持

不支持

音视频费用

语音合成和语音识别费用,不涉及音视频通话费用,具体计费请参见音视频费用

相比 WebSocket 方式费用会更高,除了语音合成和语音识别费用,还包括音视频通话费用,具体计费请参见音视频费用

不涉及

对芯片平台的要求