> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

在智能语音领域，WebSocket 、 RTC 和 HTTP 是广泛应用于实现实时通信的技术。它们各自具有独特的特性和适用场景，开发者可以根据具体需求选择合适的技术方案。
## 技术概述 {#71d32040}
### **WebSocket** {#56f57a45}
WebSocket 是一种全双工通信协议，基于 TCP 建立持久化连接，允许服务器与客户端实时双向通信。客户端通过 `WebSocket` 协议与服务器握手建立连接。
### **RTC** {#48c3eae5}
集成了火山引擎实时音视频 RTC 的音视频通信能力，基于优质的全球传输网络实现超低延时，支持自动噪声抑制，以更低的功耗实现更好的音视频通话效果。
### **HTTP** {#f37df401}
基于成熟的 HTTP 协议，开发相对简单，不需要处理复杂的实时传输和音视频编码问题。通过 HTTP 协议将语音消息上传至扣子服务端。智能体接收音频文件后，由大模型生成语音形式的回复。
## 应用场景 {#cba93254}
### WebSocket {#6ecf7295}
适用于**仅需语音通话和语音消息交互**，无需视频通话的场景，例如：

* 实时语音助手：适用于智能音箱的指令响应、车载语音控制系统等场景，提供快速、实时的语音交互体验。
* 轻量级语音交互：适用于在线客服机器人、游戏内的语音聊天功能，满足用户在无需视频交互时的语音沟通需求。
* IoT 设备控制：用于智能家居设备的语音指令下发与状态反馈，实现设备的智能化控制。
* 智能语音客服：通过 AI 实时对话代替人工坐席，自动受理客户咨询与投诉，提供 7 × 24 小时无等候的即时响应服务，降低企业运营成本，提升客户满意度。
* AI 电话销售：利用 AI 技术实现自动化的电话销售，提高效率并节省人力成本。
* 情感陪伴：用于虚拟伴侣、角色扮演等场景，提供实时语音互动，增强用户的陪伴感。

### **RTC** {#ab31aac4}
适用于**需要视频通话**，且对音视频质量和实时性要求较高的 AI 交互场景，凭借其低延迟和良好的网络适应性，提供优质的音视频体验，例如：

* 智能客服：代替人工坐席自动受理客户咨询与投诉，提供 7 × 24 小时无等候的即时响应服务，降低企业运营成本，提升客户满意度。
* AI 电话销售：通过低延迟的音视频通话，提升销售沟通的效率和体验，提高转化率。
* 情感陪伴：在虚拟伴侣、角色扮演等场景中提供实时音视频互动，增强用户的沉浸感和陪伴感。
* 在线培训与指导：支持多人音视频交互，满足实时教学和指导的需求，例如用户可以向虚拟教学助手提问，获得补充讲解，更充分地理解学习要点。

### HTTP {#e619f054}
适用于对实时性要求不高，主要以**语音消息**传递为主的场景，例如：

* 非实时语音消息：微信式语音留言、语音信箱、社交应用异步回复。
* 语音数据分析：客服录音批量质检、用户语音情感分析。

## 接入方案对比 {#9f15ff66}
为了帮助开发者更好地选择合适的技术方案，以下是对 WebSocket、RTC 和 HTTP 三种接入方案的详细对比。
<!-- @cols-width: 224,230,191,216 -->
| | | | | \
| **接入方案** | **WebSocket**  | **RTC**  |**HTTP** |
|---|---|---|---|
| | | | | \
| 接入方式  | 通过 WebSocket 协议自行实现接入  |通过火山引擎 RTC SDK 实现接入  |通过标准 HTTP 接口实现接入 |
| | | | | \
| 是否支持视频通话  | 不支持  | 支持  |不支持 |
| | | | | \
| 是否支持语音消息 | 支持  | 不支持  |支持 |
| | | | | \
| 是否支持打断  |* 支持按键打断 |\
| |* 支持语音打断  |*  支持按键打断 |\
| | |* 支持语音打断  |不涉及 |
| | | | | \
| 语音传输方式  | 双向流式  | 双向流式  |单向传输，异步消息 |
| | | | | \
| 是否支持图片输入  | 支持通过[手动提交对话内容](/developer_guides/streaming_chat_event#46f6a7d0)发送图片消息 | 支持通过[手动提交对话内容](/developer_guides/signaling_uplink_event#ebc63162)发送图片消息 |支持 |
| | | | | \
| 语音通话过程中识别图片  | 不支持  | 不支持  |不涉及 |
| | | | | \
| 是否支持实时字幕  | 支持  | 支持  |不支持 |
| | | | | \
| 是否支持声音复刻  | 支持  | 支持  |不支持 |
| | | | | \
| 音视频费用 |语音合成和语音识别费用，不涉及音视频通话费用，具体计费请参见[音视频费用](/coze_pro/asr_tts_fee)。 | 相比 WebSocket 方式费用会更高，除了语音合成和语音识别费用，还包括音视频通话费用，具体计费请参见[音视频费用](/coze_pro/asr_tts_fee)。 |不涉及 |
| | | | | \
| 对芯片平台的要求  | 无  | 有  |无 |




