音色

更新于: 2026-06-24 15:44:40

扣子编程提供了音色复刻功能，支持用户上传音频文件或直接录制声音，以复刻特定的音色。音色复刻功能帮助你创建个性化的音色资源，从而在低代码智能体或应用中实现更加自然和逼真的语音交互体验。

什么是音色复刻

音色复刻功能是一种音频处理技术，能够捕捉并模仿特定人的声音特征，包括音调、音色、节奏和语调等，从而生成与原声高度相似的声音。音色复刻能够创建个性化的音色资源，使得在智能体或 AI 应用中实现更加自然和逼真的语音交互体验。通过音色复刻，开发者和用户可以上传预先录制的音频样本或使用内置录音工具来复刻特定人的音色，进而在不同的应用场景中使用这些定制化的语音，以满足个性化需求，增强用户体验，例如教育、娱乐或客户服务，提供更加亲切和真实的交互方式。

应用场景

音色复刻功能在多种场景都有广泛的应用。

虚拟助手
利用音色复刻功能，开发者可以让用户上传自己或他人的声音样本，虚拟助手将复刻这些声音，使得交互体验更加亲切和个性化。例如，开发一个旅行伴侣虚拟助手，不仅提供旅行规划、路线导航和天气信息，还能够以用户最亲近的人的声音与用户交流。
客户服务
利用音色复刻功能，将客服代表的声音复刻到虚拟客服应用中。这样，客户在与虚拟客服交流时，将听到熟悉且自然的声音，提升服务的亲切感和专业度。例如，银行或保险公司可以复刻专业客服的声音，用于语音咨询服务，使得客户感受到更加人性化的服务。
教育培训
利用音色复刻功能，可以为教育培训应用创建以特定教师或专家的声音为特色的教学内容。例如，历史课程可以采用历史人物的声音来讲述，使得学习过程更加生动。此外，语言学习应用可以复刻母语者的声音，为学习者提供更加自然的语言学习环境。

使用限制

使用音色功能前，请了解以下限制：

限制	说明
付费套餐	企业版（标准版、旗舰版）用户可使用音色复刻功能。
免费额度	系统默认赠送一个音色，企业成员可以直接创建并使用该音色。企业内可创建的音色数量取决于购买的音色数量，如需创建更多音色，需要先购买音色扩容包，购买方式可参考购买声音复刻-音色。
音色权限	在工作空间中复刻的音色，除创建者本人外，仅限该工作空间的成员使用。不同企业复刻的音色资源是独立的，不允许跨企业使用。
训练次数	包括首次复刻在内，每个自定义音色最多被训练 10 次，训练后的音色会覆盖原音色。
使用权限	为智能体配置复刻音色并发布之后，在商店等所有发布渠道内，仅复刻音色的所有者可以使用该音色。
发布渠道	豆包渠道不支持使用扣子编程的复刻音色，音色将无法生效。

费用说明

声音复刻功能的计费项包括音色数量和音色存储数。详细费用说明，可参考语音合成阶梯价。

音色数量：根据音色的数量收取的一次性费用。购买音色时，需根据扩容的音色数量，一次性预支付音色费用。
音色存储费用：根据创建的音色数量按小时统计，按月扣费。系统会根据当月的最大值在自然月月底结算出账。

创建并使用音色

针对企业版（标准版、旗舰版）用户，扣子编程支持上传音频文件或直接录制声音，以复刻特定的音色。通过音色复刻功能，可以创建专属的音色资源，进而在智能体或应用中提供更加自然和逼真的语音交互体验。

步骤一：购买声音复刻-音色

企业超级管理员可以根据需求购买音色扩容包，企业成员可创建的音色数量取决于所购买的声音复刻-音色。购买声音复刻-音色的详细步骤请参见购买声音复刻-音色。

说明

主账号或具备火山引擎扣子编程服务购买权限（如 CozeFullAccess 权限）的 IAM 用户，均可购买音色包。

步骤二：创建并复刻音色

资源库创建音色

企业成员可以在目标工作空间的资源库中创建音色，并直接上传预先录制好的音频文件或使用平台内置的录音工具录制音频，上传或录制后就可以对音频进行复刻。
创建音色完成后，音色可以作为资源保存在资源库中，供智能体或应用使用。

在顶部选择对应工作空间，在资源库页面右上角，选择资源 > 音色。
在创建音色页面，设置音色名称、语言、音色介绍和图标，然后单击确认。
目前，音色的语言支持中文、英文、日语、西班牙语、印尼语、葡萄牙语。
单击上传音频或开始录制。
- 上传音频：上传本地预先录制好的音频文件，根据音频文件来复刻音色。
- 开始录制：朗读系统提供的文案，根据现场录制的音频来复刻音色。
复刻成功后，输入文本并单击合成，系统根据文本和复刻的声音合成音色，供你试听。
单击试听图标，确认音色符合预期后，单击确认。

Open API 创建音色

调用复刻音色OpenAPI 创建并复刻音色，详细说明可参考音色复刻。

步骤三：使用音色

创建完音色资源后，即可为智能体设置音色。你可以直接为智能体指定一个固定音色，也可以在智能音视频通话中灵活选择智能体音色。

为智能体设置固定音色：设置了音色的智能体发布到扣子编程商店后，支持以语音方式与用户交互，打造类似音频通话的体验。在智能体的编排页面，在对话体验 > 语音区域开启语音通话，并设置音色即可。
音视频通话：通过 Real-Time SDK，在智能音视频通话中通过指定智能体在本次通话中使用的音色 ID，使智能体能够以个性化的声音回复，详情可参考体验智能音视频 Demo。自定义音色 ID 可以在音色的详情页 URL 中获取，例如 https://www.coze.cn/space/7491179807783911458/voice/749200079046752**** 中，749200079046752**** 即为音色 ID。