助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

图生图-图文匹配度评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类

详情

基础信息

评估器名称

图生图-图文匹配度评估工具

评估器类型

黑盒评估器

效果说明

功能概述

针对(T+Multi-Image)2 Image场景,生成结果对于输入Prompt的响应度可用情况(1-可用,0-不可用),输入和输出均为Excel表格形式

评估方式

LLM 评估器

评估对象

图片

评估目标

内容质量

应用场景

AIGC 产物质量评估

评估规则说明

得分说明:总分范围在[“1”, “0”],1表示效果图在图文匹配度维度能达到可用(不是图文匹配度维度的badcase),0表示不可用(是图文匹配度维度的badcase)

评估置信度

在100条多图评测数据集上,准确率85%

评估器参数说明

参数

参数名称

是否必填

参数说明

输入信息

input_images

list,输入图像的URL列表,支持1~10图

user_prompt

string,用户输入prompt

result_image

string,效果图的URL链接

输出信息

score

float,取值范围[“1”, “0”],0表示图文匹配度维度下不可用,1表示图文匹配度维度下可用

reasoning

string,大模型推理过程

输入格式 (Input Schema)

{
    "input_images": [
        "https://pic.616pic.com/photoone/00/02/25/618cf325158d22512.jpg!/fw/1120",
        "https://pic.616pic.com/photoone/00/07/45/619763b436d2c699.jpg!/fw/1120"
    ],// 输入多个图片
    "user_prompt": "图1跟图2手牵着手在漫步,路边长着几朵小花,古道,古树,青砖铺路", // 用户prompt
    "result_image": "https://pic.616pic.com/photoone/00/00/08/618ce5c557c786669.jpg!/fw/1120" // 模型生成效果图
}

输出格式 (Output Schema)

{
    "score": 0,
    "reasoning": "我现在需要处理用户的评估请求。首先,回顾一下任务要求:评估生成的效果图是否符合“参考图+prompt”的要求,输出0或1。首先,我需要明确参考图、prompt和效果图的内容。\n\n首先,参考图有两张:第一张是一个穿粉色卫衣、牛仔裤、戴墨镜、拿饮料的小女孩;第二张是一个穿绿格子上衣、白裤子、扎双麻花辫、在草地上跳跃的小女孩。然后,prompt文本是:“图1跟图2手牵着手在漫步,路边长着几朵小花,古道,古树,青砖铺路”。接下来是效果图,需要检查是否符合prompt的要求。\n\n首先,分解prompt的核心要素:1. 图1和图2的人物(即两个小女孩);2. 手牵着手;3. 漫步(动作);4. 路边有小花;5. 古道;6. 古树;7. 青砖铺路。这些是prompt中的关键要素,共7个。\n\n接下来看效果图:效果图中有两个小女孩,左边的是图1的人物(粉色卫衣、牛仔裤、墨镜),右边的是图2的人物(绿格子上衣、白裤子、麻花辫,头上有花),她们手牵着手,正在漫步(动作符合)。路边有小花(右下角有粉色和白色的小花),古道(两边是老房子的巷子,符合古道),古树(两边有粗大的古树,树干有苔藓),青砖铺路(地面是绿色的青砖,符合)。\n\n现在统计响应的要素:1. 两个人物:是;2. 手牵手:是;3. 漫步:是;4. 路边小花:是;5. 古道:是;6. 古树:是;7. 青砖铺路:是。所有7个要素都被响应,远超过60%的要求(至少4.2个,这里全中)。没有语义矛盾,所有要素都符合prompt的描述。\n\n所以,响应度达标,语义一致,应该输出1。"
}