计费项/低代码计费项/音视频费用
音视频费用
更新于: 2026-06-24 15:44:01
在使用扣子编程智能音视频相关的服务(音色复刻、语音输入、朗读、音视频通话等)时,会产生相应的语音费用,包括声音复刻、语音合成、语音识别、音频通话、视频通话费用。
在扣子中,所有按量付费的扣子资源的消耗默认通过积分进行抵扣。当企业版账户积分余额不足时,系统将自动从你的现金账户中扣除对应的金额。采用预付费方式的计费项(例如增购声音复刻-音色数量)不支持积分抵扣。
说明
|
分类 |
计费项 |
免费额度 |
单价 |
|
|---|---|---|---|---|
|
积分结算 |
现金结算 |
|||
|
智能设备语音通话 |
增购AI智能通话许可(复刻音色) |
无 |
不支持 |
7.5 元/小时*台 |
|
增购AI智能通话许可(系统音色) |
无 |
不支持 |
5 元/小时*台 |
|
|
声音复刻 |
增购声音复刻-音色数量 |
1 个 |
不支持 |
138 元/个 |
|
音色模型存储数 |
1 个 |
1000 积分/个/月 |
1 元/个/月 |
|
|
声纹识别 |
声纹识别 |
600 次 |
5 积分/次 |
0.005 元/次 |
|
语音合成 |
复刻音色文字转语音字数 |
50,000 字符 |
0.8 积分/字符 |
0.0008 元/字符 |
|
系统音色文字转语音字数 |
50,000 字符 |
0.5 积分/字符 |
0.0005 元/字符 |
|
|
豆包语音合成2.0-系统音色文字转语音字数 |
无 |
0.3 积分/字符 |
0.0003 元/字符 |
|
|
小模型合成次数 |
1500 次 |
5.5 积分/次 |
||
|
语音识别 |
小模型流式语音识别时长 |
180 分钟 |
58.4 积分/分钟 |
|
|
大模型流式语音识别时长 |
180 分钟 |
75 积分/分钟 |
0.075 元/分钟 |
|
|
大模型录音文件识别时长 |
180 分钟 |
39 积分/分钟 |
0.039 元/分钟 |
|
|
录音文件识别(极速版) |
180 分钟 |
50 积分/分钟 |
||
|
音频通话 |
对话式AI-音频时长 |
180 分钟 |
9 积分/分钟 |
0.009 元/分钟 |
|
语音通话时长 |
180 分钟 |
7 积分/分钟 |
0.007 元/分钟 |
|
|
小程序语音通话 |
180 分钟 |
9 积分/分钟 |
0.0090 元/分钟 |
|
|
视频通话 |
视频通话时长-4K |
180 分钟 |
252 积分/分钟 |
0.252 元/分钟 |
|
视频通话时长-2K |
180 分钟 |
112 积分/分钟 |
0.112 元/分钟 |
|
|
视频通话时长-1080P |
180 分钟 |
63 积分/分钟 |
0.063 元/分钟 |
|
|
视频通话时长-720P |
180 分钟 |
28 积分/分钟 |
0.028 元/分钟 |
|
|
视频通话时长-360P |
180 分钟 |
14 积分/分钟 |
0.014 元/分钟 |
|
小模型合成次数为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
|
小模型合成次数档位 |
单价 |
费用计算公式 |
|---|---|---|
|
0~1000,000 次 |
0.0055 元/次 |
Y ✖️ 0.0055 元 |
|
1000,001~5000,000 次 |
0.0050 元/次 |
1000,000 ✖️ 0.0055 |
|
5000,001~10,000,000 次 |
0.0045 元/次 |
1000,000 ✖️ 0.0055 |
|
10,000,001 次及以上 |
0.0040 元/次 |
1000,000 ✖️ 0.0055 |
小模型流式语音识别时长为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
|
小模型流式语音识别时长档位 |
单价 |
费用计算公式 |
|---|---|---|
|
0~18,000 分钟 |
0.0584 元/分钟 |
Y ✖️ 0.0584 元 |
|
18,001~60,000 分钟 |
0.0500 元/分钟 |
18,000 ✖️ 0.0584 |
|
60,001~180,000 分钟 |
0.0400 元/分钟 |
18,000 ✖️ 0.0584 |
|
180,001~300,000 分钟 |
0.0300 元/分钟 |
18,000 ✖️ 0.0584 |
|
300,001 分钟及以上 |
0.0200 元/分钟 |
18,000 ✖️ 0.0584 |
录音文件识别(极速版)为超额累进模式的阶梯计费,按日统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
|
录音文件识别(极速版)时长档位 |
单价 |
费用计算公式 |
|---|---|---|
|
0~300 分钟 |
0.05 元/分钟 |
Y ✖️ 0.05 元 |
|
301~1,000 分钟 |
0.043 元/分钟 |
300 ✖️ 0.05 |
|
1,001~3,000 分钟 |
0.035 元/分钟 |
300 ✖️ 0.05 |
|
3,001~5,000 分钟 |
0.03 元/分钟 |
300 ✖️ 0.05 |
|
5,001 分钟及以上 |
0.02 元/分钟 |
300 ✖️ 0.05 |
扣子支持将智能体集成到智能设备上,当用户在与智能设备进行语音通话时,会产生语音识别、语音合成、模型 token、语音通话等费用。 上报设备的操作,请参考上报设备信息。
默认情况下,与智能设备进行语音通话时产生的费用采用按量付费(先用后付)方式。企业版(标准版、旗舰版)支持购买增购 AI 智能通话许可(复刻音色)和增购 AI 智能通话许可(系统音色)服务,抵扣相应费用。
|
计费项 |
说明 |
时长计算规则 |
示例 |
|---|---|---|---|
|
增购AI智能通话许可(复刻音色) |
用于抵扣企业内所有上报设备的语音识别、语音合成(复刻音色)和文本模型费用。文本模型费用是指使用大模型文本模态所产生的费用,图像等其他模态所产生的费用不支持抵扣。 |
在与设备通话过程中,语音识别、语音合成(复刻音色)和文本模型处理的总时长为整个通话时长,单位为小时,精确到小数点后三位。 |
例如,企业购买 10,000 小时的增购 AI 智能通话许可(复刻音色)服务后,在服务有效期内,企业所有上报设备的累计通话时长中,10000 小时内产生的语音识别、语音合成(复刻音色)和文本模型费用均可通过该服务抵扣。 |
|
增购AI智能通话许可(系统音色) |
用于抵扣企业内所有上报设备的语音识别、语音合成(系统音色)和文本模型费用。 文本模型费用是指使用大模型文本模态所产生的费用,图像等其他模态所产生的费用不支持抵扣。 |
在与设备通话过程中,语音识别、语音合成(复刻音色)和文本模型处理的总时长为整个通话时长,单位为小时,精确到小数点后三位。 |
例如,企业购买了 10,000 小时的增购 AI 智能通话许可(系统音色)服务后,在服务有效期内,企业所有上报设备的累计通话时长中,10000 小时产生内的语音识别、语音合成(系统音色)和文本模型费用均可通过该服务抵扣。 |
在特殊场景下,增购 AI 智能通话许可(复刻音色)服务也支持抵扣设备语音通话中的语音合成(系统音色)费用。
|
规则 |
说明 |
|---|---|
|
付费方式 |
购买时需一次性支付相应的费用。 |
|
订阅套餐限制 |
仅企业版(标准版、旗舰版)支持购买。 |
|
账号权限 |
主账号或具备火山引擎扣子服务购买权限(如 CozeFullAccess 权限)的 IAM 用户,均可购买 AI 智能通话许可(复刻音色)、 AI 智能通话许可(系统音色)。 |
|
购买时长 |
购买时长为当前企业内所有上报设备共用额度,不是指每台设备的时长额度。 |
|
降配、到期影响 |
|
|
退订、续费、更配限制 |
不支持退订、续费、更配。 |
|
超额处理 |
当实际的设备通话时长超过购买的增购AI智能通话许可(系统音色)、增购AI智能通话许可(复刻音色)时,超出部分将采用按量付费方式计费。 |
在扣子编程的团队与企业管理 > 设备管理的用量明细及管控页签下,单击购买语音通话时长。
购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务后,你可以在扣子编程的团队与企业管理 > 设备管理的用量明细及管控页签下,单击购买明细,查看购买记录,包括已购买的通话时长、已使用的通话时长、购买时间、有效期等信息。
购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务后,你可以在当前计划页面查看对应的时长余量。
在扣子编程的左下角,单击积分卡片,然后在语音通话时长-系统音色或语音通话时长-复刻音色区域,查看未使用的通话时长(①)、已购买的通话时长(②)。例如 9999 表示未使用的时长,10000 表示已购买的时长。
扣子为企业版(标准版、旗舰版)提供了音色复刻功能,支持用户上传音频文件或直接录制声音,以复刻特定的音色。更多信息,请参考音色。
使用声音复刻功能时,将基于增购声音复刻-音色数量、音色模型存储数这两个计费项计算费用。
|
计费项 |
说明 |
|---|---|
|
增购声音复刻-音色数量 |
用于增加可创建的自定义复刻音色数量,企业可创建的音色总数,由购买的音色数量决定。 |
|
音色模型存储数 |
根据复刻音色的实际个数收取对应的音色模型存储费。 |
|
规则 |
说明 |
|---|---|
|
付费方式 |
购买时需一次性支付相应的费用。 |
|
订阅套餐限制 |
仅企业版(标准版、旗舰版)支持购买。 |
|
账号权限 |
主账号或具备火山引擎扣子服务购买权限(如 CozeFullAccess 权限)的 IAM 用户,均可增购声音复刻-音色数量 。 |
|
有效期 |
购买音色后,有效期为 99 年。 |
|
降配、到期影响 |
套餐降配到个人版或到期后,购买的音色将不可用,即不再支持企业新建音色。 |
|
退订、续费、更配限制 |
购买的音色不支持退订、续费、更配。 |
在火山扣子控制台的概览页面的声音复刻-音色数量区域,单击增购音色,然后选择音色数量,根据页面提示,完成购买。
在火山扣子控制台概览页面的声音复刻-音色数量区域,查看未使用的声音复刻-音色数量(①)、已购买的声音复刻-音色数和声音复刻-音色免费额度总和(②)。
启用声纹识别功能后,用户在进行音视频通话时,扣子能够自动识别说话人身份,并会产生声纹识别费用。如何使用声纹识别,请参考声纹识别。
|
计费项 |
说明 |
|---|---|
|
声纹识别 |
开启声纹识别功能后,用户与智能体进行音视频通话时,每输入一次语音对话,系统将识别一次声纹,并计算一次声纹识别费用。 |
使用语音合成功能将文本内容转为语音片段时,扣子将根据音色类型(复刻音色/系统音色)及对应规则收取语音合成费用。
说明
|
计费项 |
说明 |
|---|---|
|
复刻音色文字转语音字数 |
使用复刻音色将文字内容转换为语音输出时,根据文字内容的字符数收费。 |
|
系统音色文字转语音字数 |
使用系统预设的大模型 1.0 音色将文字内容转换为语音输出时,根据文字内容的字符数收费。 |
|
豆包语音合成2.0-系统音色文字转语音字数 |
使用系统预设的大模型 2.0 音色将文字内容转换为语音输出时,根据文字内容的字符数收费。 |
|
小模型合成次数 |
使用系统预设的小模型音色将文字内容转换为语音输出时,根据语音合成的次数收费。 默认扣减积分,固定单价。如果账户中无足够的积分余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。 |
使用语音识别功能将音频转为文本时,会产生语音识别费用,按音频时长计费。不同的音频类型和模型类型,对应的计费项不同。
说明
在企业版套餐中使用大模型或小模型处理流式语音时,支持扩容并发数。详情请参考资源扩容费用。
|
计费项 |
说明 |
时长统计规则 |
|---|---|---|
|
小模型流式语音识别时长 |
通过小模型实时识别语音流,将语音内容转换为文字时,根据音频时长收费。 默认扣减积分,固定单价。 如果账户中无足够的积分余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。 |
累加每次语音转文字的总时长,最小单位为毫秒,最终会转换为分钟,并四舍五入保留两位小数。 |
|
大模型流式语音识别时长 |
通过大模型实时识别语音流,将语音内容转换为文字时,根据音频时长收费。 |
|
|
大模型录音文件识别时长 |
通过大模型对上传的录音文件进行语音识别,将语音内容转换为文字时,根据音频时长收费。 |
|
|
录音文件识别(极速版) |
通过小模型对上传的录音文件进行语音识别,将语音内容转换为文字时,根据音频时长收费。 默认扣减积分,固定单价。如果账户中无足够的积分余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为日,次日将从最低档位重新开始累计。 |
用户与智能体进行音视频通话时,会产生音频通话费用。实时音视频功能的音频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详情请参考如何统计实时音视频通话中的音视频时长?。
|
计费项 |
说明 |
时长计算规则 |
|---|---|---|
|
对话式Al-音频时长 |
智能体处理用户音视频流时产生的 AI 计算资源费用,根据时长计费。 |
计费时长为智能体在房间内的时长,即从用户调用创建房间接口开始,直到智能体退出房间结束。 |
|
语音通话时长 |
在小程序以外的发布渠道中进行音视频通话,采用语音通话时长计费项收取语音通话费用。根据通话时长计费。 |
因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的语音通话费用,但通话时长不同。
|
|
小程序语音通话 |
在小程序发布渠道中进行音视频通话,采用小程序语音通话计费项收取语音通话费用。根据通话时长计费。 |
因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的小程序语音通话费用,但通话时长不同。
|
在使用实时音视频功能时,如果开启视频通话功能,系统将根据视频分辨率和视频通话时长,在语音通话费用的基础上另外收取视频费用。
|
计费项 |
说明 |
时长计算规则 |
|---|---|---|
|
视频通话时长-4K |
视频分辨率处于 2K ~ 4K 范围时,根据 4K 视频分辨率的通话时长收取视频通话费用。 |
从开启视频到结束视频之间的时长。 |
|
视频通话时长-2K |
视频分辨率处于 1080P ~ 2K 范围时,根据 2K 视频分辨率的通话时长收取视频通话费用。 |
|
|
视频通话时长-1080P |
视频分辨率处于 720P ~ 1080P 范围时,根据 1080P 视频分辨率的通话时长收取视频通话费用。 |
|
|
视频通话时长-720P |
视频分辨率处于 360P ~ 720P 范围时,根据 720P 视频分辨率的通话时长收取视频通话费用。 |
|
|
视频通话时长-360P |
视频分辨率不高于 360P 时,根据 360P 视频分辨率的通话时长收取视频通话费用。 |
使用智能语音功能时,需要根据实际的使用场景和使用量支付一定费用。在扣子中常见的计费场景如下:
|
操作 |
操作说明 |
计费项 |
计费用量 |
操作示例 |
|---|---|---|---|---|
|
语音输入 |
单击语音输入,按键开始说话,向智能体发送语音消息。 |
|
音频时长为从按住说话到松手发送的总时长。 |
|
|
语音通话 |
单击编辑语音,设置音色后,单击通话,和智能体进行语音通话。 |
|
开始时间为单击通话时,结束时间为单击挂断时。 |
|
|
朗读 |
单击编辑语音,设置音色后,设置了自动播放声音或主动单击智能体回复消息中的朗读,即开始朗读消息 |
不同的音色计费项如下:
|
朗读是通过调用双向流式语音合成 API 实现的。用量计算规则,请参考如何统计双向流式语音合成的用量?。 |
|
|
操作 |
操作说明 |
费用 |
计费用量 |
操作示例 |
|---|---|---|---|---|
|
调用语音识别插件 |
在智能体、工作流中调用语音识别插件,通过小模型将语音文件转换为文本。 |
录音文件识别(极速版) |
根据音频文件的时长统计。 |
|
|
在智能体、工作流中调用大模型语音识别插件,通过大模型将语音文件转换为文本。 |
大模型录音文件识别时长 |
根据音频文件的时长统计。 |
|
|
|
调用语音合成插件 |
在智能体、工作流中调用语音合成插件,将文本转换为音频。 |
不同的音色计费项如下:
|
|
|
|
操作 |
操作说明 |
费用 |
计费用量 |
操作示例 |
|---|---|---|---|---|
|
复刻音色 |
企业团队管理员购买音色扩容包。 |
声音复刻计费项,包括:
|
|
|
|
语音合成 |
在输入框中输入文本,单击合成。 |
复刻音色文字转语音字数 |
根据输入框中的文字字数统计 |
|
|
操作 |
操作说明 |
费用 |
计费用量 |
操作示例 |
|---|---|---|---|---|
|
语音输入 |
单击语音输入,按键开始说话,向智能体发送语音消息,松开结束说话。 |
大模型录音文件识别时长 |
音频时长为从按住说话到松手发送语音的总时长。 |
|
说明
目前,仅通过 API 方式使用语音合成时,可以选择豆包语音合成大模型 2.0 音色。
|
操作 |
操作说明 |
费用 |
计费用量 |
操作示例 |
|---|---|---|---|---|
|
语音合成 |
调用语音合成 API |
不同的音色计费项如下:
|
|
|
|
调用双向流式语音合成 API |
不同的音色计费项如下:
|
用量计算规则,请参考如何统计双向流式语音合成的用量?。 |
示例请参考集成 WebSocket 实时语音 SDK。 |
|
|
语音识别 |
调用语音识别 API。 |
大模型录音文件识别时长 |
根据上传的音频文件的音频时长统计。 |
|
|
调用双向流式语音识别事件 API |
大模型流式语音识别时长 |
根据语音时长统计。 |
示例请参考集成 WebSocket 实时语音 SDK。 |
|
|
实时音视频对话 |
基于 WebSocket OpenAPI 实现音频通话(暂不支持视频) |
|
用量计算规则,请参考如何统计实时音视频通话中的语音合成和语音识别用量? |
|
|
用量计算规则,请参考如何统计实时音视频通话中的音视频时长?、如何统计实时音视频通话中的语音合成和语音识别用量? |
|
||
|
语音消息 |
调用发起对话 API 发送语音消息 说明 通过发起对话 API 发送语音消息的功能已停止迭代,推荐使用 WebSocket 语音通话,其具备更优性能、更低延迟,具体请参见基于 WebSocket OpenAPI 实现音频通话。 |
|
|
无 |
扣子智能语音功能中多个计费项采用阶梯计价方式,用量越大,单价越低。
阶梯计费分为超额累进和全额累进,其详细对比如下:
|
/ |
超额累进计费 |
全额累进计费 |
|---|---|---|
|
定义 |
只对超出某个阶梯的部分按照该阶梯的单价计算费用,而之前的用量仍按较上一个阶梯的单价计算。 |
一旦用量达到某个阶梯,所有用量(包括之前的用量)都按照该阶梯的单价计算费用。 |
|
样例 |
例如,用户 A 在 2025 年 3 月累计产生小模型合成次数 100 万次,4 月产生 300 万次。则每月的小模型合成次数费用如下:
|
例如,用户 A 在 2025 年 3 月复刻音色 11 个,4 月复刻 52 个,则音色数量费用如下:
|
|
图示 |
|
|
使用语音合成功能时,系统会根据音色模型和音色类型收取。
小模型的系统音色
采用小模型的系统音色时,会对流式上传的文本进行分句,每个分句会产生一次调用。当识别到剩余文本字符数小于 1024 时,会一次性合成剩余所有文本的音频。分句规则为正则匹配,表达式为 [,:。?!;]+。
例如 "你下班打算干啥呀?是去看电影,还是约朋友吃饭;或者直接回家休息?有家火锅店味道超棒!我们周末去试试吧。",根据分句规则,会分成如下 5 句。
你下班打算干啥呀?
是去看电影,还是约朋友吃饭;
或者直接回家休息?
有家火锅店味道超棒!
我们周末去试试吧。
首次调用合成第一个分句的音频 你下班打算干啥呀?,识别到剩余字符数不足 1024,第二次调用合成剩余所有文本的音频,总计 2 次调用。
大模型系统音色或复刻音色。
采用复刻音色或大模型的系统音色时,系统会根据文本的字数进行计算。如果客户端主动断开链接,则按照已播放的音频对应的字数统计。例如用户上传的文本字符数为 500 字符,服务端已生成了 300 字符,返回给客户端了 280 字符播放,此时客户端主动断开链接,会按照 300 字符数进行统计。
在使用实时通话时,如果使用了复刻音色和大模型系统音色,那么会产生语音合成费用,默认根据通话过程中大模型返回的文本字符数(包含开场白)计费。如果在使用过程中,用户主动打断智能体说话,会按照服务端已生成的音频对应的字符数进行计费。
例如一轮对话中,大模型返回了 500 字符,服务端已生成了 200 字符的音频,由于用户打断对话,客户端只播放了 100 字符,实际仍按照服务端已生成的 200 字符计费。
在使用实时通话时,语音识别服务统计的音频时长约等于用户说话的总时长,不同语音检测模式统计音频时长的方式略有差异,具体说明如下:
|
模式 |
说明 |
|---|---|
|
按键说话模式 |
在按键说话模式下,语音识别服务时长为客户端统计的用户侧音频总时长,即客户端识别到用户说话时开始计时,识别到用户停止说话时停止计时。 |
|
自由对话模式 |
自由对话模式下的音频时长统计逻辑如下:
|
关于 WebSocket 场景和 RTC 场景下的语音检测模式说明,请参考如何设置扣子的语音检测模式。
不同语音检测模式对应的语音时长统计图示如下:
说明
在自由对话模式中,VAD 检测到背景音中的人声并会启动语音识别服务,并不一定是用户开始说话。例如在使用实时通话功能时,即使用户没有说话,周围人的聊天声也可能被 VAD 检测到,从而启动语音识别服务。
实时音视频功能的音频通话时长、视频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详细说明如下:
说明
智能体进入房间后,会等待用户 3 分钟,如果 3 分钟后用户仍未加入房间,智能体会退出房间。
例如小明使用实时音视频功能时,在 10:30 调用创建房间接口获取到进房凭证,在 10:32 进入房间开始和智能体对话,在 10:35 开启视频通话功能,在 10:40 关闭了视频通话功能(1080P),然后一直和智能体聊天到 11:30 退出房间。音视频通话时长及对应费用明细如下:
|
项目 |
时长 |
计费公式 |
|---|---|---|
|
对话式 Al-音频 |
智能体进房开始计算,即 10:30 到 11:30,共计 60 分钟。 |
60 分钟 × 9 点/分钟 = 540 点 |
|
语音通话 |
通话是双向的,用户侧和智能体侧两份语音通话时长单独计算:
|
( 58 分钟 + 60 分钟 ) × 7 点/分钟 = 826 点 |
|
视频通话(1080P) |
从 10:35 到 10:40,一共 5 分钟。 |
5 分钟 × 63 点/分钟 = 375 点 |
是的,调用创建房间 API 之后,智能体随即进房,开始收取智能体的语音通话费用、对话式 Al-音频费用,即使此时用户可能尚未加入房间。当用户拿到 Token 后没有进入房间,智能体也会在房间中等待,直到检测到用户 3 分钟后仍未进入房间,智能体才会退出房间。
因此,创建房间之后,即使没有实际的对话或语音通话,也会产生相应的费用。为避免这种情况,请合理控制建房接口的调用频率。
智能体未说话时,语音通话时长仍很长,可能是因为如下场景:
创建房间的用户进入房间与智能体聊天后退出房间,智能体也会随之退出。随后,用户可以使用创建房间时的凭证再次进入房间,但是智能体不会重新进入。此时,用户无法与智能体对话,但只有用户处在房间中,就仍会计算语音通话时长。
根本原因是出账延迟。例如用户在 10:30~10:40 期间使用了实时音视频功能,产生的对话式 AI-音频时长费用和语音通话时长费用,理论上会统计在 10:00~11:00 的账单上。但因为计算量大导致的出账延迟,两条账单分别有不同的偏移,对话式 AI-音频时长费用可能偏移到 11:00~12:00 的账单中,语音通话时长可能偏移到 12:00~13:00 的账单中,因此导致账单中两种时长差别较大。理论上,正常的实时音视频通话产生的时长比例约为 对话式AI-音频时长 : 语音通话时长 ≈ 1 : 2。你可以将时间段扩大到 3~5 小时,再次查看时长是否符合预期。
如果你没有开启视频通话,但仍然产生了视频通话费用,可能是由于使用了旧版的嵌入式 RTC SDK。旧版的嵌入式 RTC SDK 默认会打开视频开关,并产生视频通话费用。为避免这种情况,你可以重新安装 RTC SDK 以使用最新版 SDK,具体操作,请参考基于 RTC 实现音视频通话。
实时音视频与智能语音是独立计费项。实时音视频按通话、流媒体时长计费,智能语音中的语音识别按照时长计费、语音合成按照字符数计费。如果在 RTC 通话中同时使用语音识别或合成功能,会产生叠加计费。不同场景下的积分消耗不同,如小程序语音通话为 9点/分钟,对话式 AI 音频为 9点/分钟。