当你传入图片时,视觉语言模型(VLM)可以理解图片里的视觉信息,并结合这些信息完成图片相关的任务,例如描述图片等。豆包模型家族中的 Doubao-vision-pro-32k 就是 VLM 的一种。基于RTC + 视觉大模型/语言大模型的强大理解能力,扣子支持和自己搭建的智能体进行低延迟高质量的视频实时通话,让智能体耳聪目明。
VLM 结合端插件获取屏幕内容: