智能体/提升低代码智能体对话体验/音视频通话
音视频通话
更新于: 2026-06-24 15:44:40
开发者可以在低代码智能体编排页面设置是否允许用户在扣子商店通过语音或视频与智能体实时沟通,并可设置音色和默认输入方式。
在智能客服、智能穿戴、语音陪伴等音视频场景中,为智能体开启音视频通话功能并合理设置音色,可显著提升其交互的丰富性和生动性,使沟通更加直观、高效。同时,合适的音色能赋予智能体更具亲和力、专业性或个性化的语音表达,从而增强用户对智能体的好感度和信任感,更好地满足用户在不同场景下的多样化需求,进一步优化用户与智能体之间的交互体验。
开启了语音通话和视频通话的智能体,发布至扣子商店等渠道后,将支持用户通过语音、视频、或共享屏幕的方式与其交互,用户可体验到如图所示的音视频通话效果。
语音通话
视频通话
共享屏幕
说明
在低代码智能体编排页面开启语音通话或视频通话后,支持在如下渠道使用:
在智能体编排页面的对话体验 > 音视频区域,选择智能体对应的音色,你可以使用扣子编程系统预置的音色或资源库中复刻的音色。
扣子编程的系统预设音色支持多情感音色,即一个音色可以表达多种情感,例如开心、悲伤等。你可以指定其中一种情感并设置其情绪强烈程度,让智能体在通话时用对应的情感语气说话(不会针对每句话进行动态调整情感)。带有多情感标签的音色支持此功能。
注意
试听多情感音色时,扣子编程将按照按文字转语音的字符数收费,费用详细说明请参见音视频费用。
|
参数 |
说明 |
|---|---|
|
情感 |
情感参数用于指定智能体音色的情感类型,例如开心、悲伤等。你可以从下拉列表中选择该音色对应的情感。不同音色支持的情感范围不同。 |
|
情感值 |
情感值用于量化情感的强度。数值越高,情感表达越强烈,例如: “开心” 的情绪值 5 比 1 更显兴奋。 |
开启或关闭语音通话或视频通话右侧的开关。开启后,用户在扣子商店中打开对应的智能体,可以通过语音通话、视频通话或屏幕共享的方式与智能体实时沟通。
说明
开启视频通话时,智能体或工作流需要选择支持图片理解的模型,例如豆包·视觉理解·Pro 模型。
设置入口
设置后的效果
在视频通话过程中,扣子编程通过视频抽帧技术,将摄像头画面或共享屏幕转化为图像帧,供大模型分析理解。为保障大模型精准识别用户行为和意图,你需要设置视频抽帧的参数,参数说明如下。
|
参数 |
说明 |
|---|---|
|
每秒抽帧数 |
在视频通话过程中,摄像头或屏幕共享捕捉画面的频率。捕捉到的画面会作为视觉模型的输入,帮助智能体理解用户的动作和行为。抽帧数越高,智能体能够获取的画面信息越丰富,从而更准确地理解用户的意图和行为,但会增加 Token 消耗。 |
|
开始说话前抽取秒数 |
在用户开始说话之前,抽取指定秒数的画面,能够帮助智能体提前了解用户在说话前的动作状态,从而更全面地理解用户的意图与行为。 |
(可选)设置默认的用户输入方式。
开启语音通话或视频通话后,你可以选择默认的输入方式为语音通话或视频通话。设置后,当用户打开智能体时,默认进入语音通话页面或视频通话页面。
设置入口
设置后的效果
配置完成后,你可以在调试区体验通过语音通话、视频通话或共享屏幕的方式,与智能体进行实时交流。
开启了语音通话或视频通话的智能体,发布扣子商店后,如果默认输入方式是打字输入或语音输入,你可以在智能体右上角单击通话按钮,选择语音通话、视频通话或屏幕共享。如果默认输入方式为语音通话或视频通话,打开智能体并接听后,即可通过语音或视频方式与智能体交互。