助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

在扣子体验豆包视觉模型(VLM)

更新于: 2026-06-24 15:44:40

当你传入图片时,视觉语言模型(VLM)可以理解图片里的视觉信息,并结合这些信息完成图片相关的任务,例如描述图片等。豆包模型家族中的 Doubao-vision-pro-32k 就是 VLM 的一种。基于RTC + 视觉大模型/语言大模型的强大理解能力,扣子支持和自己搭建的智能体进行低延迟高质量的视频实时通话,让智能体耳聪目明。

Demo 演示

创建视觉模型智能体

视觉模型音视频对话

体验豆包视觉模型

  1. 前往火山方舟控制台,开通 Doubao-vision-pro-32k 大模型。
    操作步骤可参考接入火山方舟模型
  2. 创建智能体,并且在模型设置中选择豆包视觉模型
    Image
  3. 将智能体发布为 API 服务。
    Image
  4. 访问网址 https://www.coze.cn/open-platform/realtime/playground 即可体验。

实践案例

VLM 结合端插件获取屏幕内容: