扣子扣子编程扣子罗盘资源

文档反馈

过时公告（隐藏发布）

【重要通知】扣子账号服务升级

在扣子体验豆包视觉模型（VLM）

【重要通知】扣子专业版计费规则调整

原抖音登录入口即将取消

火山方舟模型下线公告

扣子空间：和 Agent 一起开始你的工作

扣子专业版更名公告

对话流 API 请求参数校验调整的公告

关于图像生成节点调整的公告

在扣子体验豆包视觉模型（VLM）

更新于: 2026-06-24 15:44:40

当你传入图片时，视觉语言模型（VLM）可以理解图片里的视觉信息，并结合这些信息完成图片相关的任务，例如描述图片等。豆包模型家族中的 Doubao-vision-pro-32k 就是 VLM 的一种。基于RTC + 视觉大模型/语言大模型的强大理解能力，扣子支持和自己搭建的智能体进行低延迟高质量的视频实时通话，让智能体耳聪目明。

Demo 演示

创建视觉模型智能体

视觉模型音视频对话

体验豆包视觉模型

前往火山方舟控制台，开通 Doubao-vision-pro-32k 大模型。
操作步骤可参考接入火山方舟模型。
创建智能体，并且在模型设置中选择豆包视觉模型。
将智能体发布为 API 服务。
访问网址 https://www.coze.cn/open-platform/realtime/playground 即可体验。

实践案例

VLM 结合端插件获取屏幕内容：

【重要通知】扣子账号服务升级

【重要通知】扣子专业版计费规则调整

创建视觉模型智能体

视觉模型音视频对话

体验豆包视觉模型