助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

文生图-指令遵循评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类

详情

基础信息

评估器名称

文生图-指令遵循

评估器类型

黑盒评估器,评估标准的明细不对客展示

效果说明

功能概述

考察文生图场景下,生成图片是否满足用户诉求的能力指标,包含主体遵循度、属性遵循度、结构遵循度、约束遵循度。
主体遵循度:衡量生成内容中是否准确包含了指令中明确要求的主体或核心元素。这些元素通常是场景描述的核心对象。
属性遵循度:衡量生成内容对于主要元素的具体特征、细节和属性描述的遵循情况。属性包括但不限于颜色、形状、材质、风格、装饰、表情、姿态、动作等。该维度关注生成内容是否精准还原了描述性修饰词或限定条件下的细节,体现模型对复杂文本理解和细致表达的能力。
结构遵循度:衡量生成内容中各元素之间的空间位置、相互关系、层级结构及互动方式是否符合指令要求。
约束遵循度:衡量生成内容对指令中各种限制性条件、否定要求、排除项和特定约束的遵循情况。

评估方式

复合评估器(LLM + Code)

评估对象

图片

评估目标

内容质量

应用场景

AIGC 产物质量评估

评估规则说明

总体得分取各个维度的最低分

主体遵循度评分标准:
0分:有害/完全无用-主要元素完全缺失或无法辨认
2分:大部分可用-主要元素部分缺失或极度模糊
4分:好用-主要元素均清晰出现

属性遵循度评分标准:
0分:有害/完全无用-所有关键属性均未体现
1分:难用/不好用-大部分属性错误或缺失错误属性的在图片上的占比大于10%
2分:大部分可用-大部分属性正确,少量错误错误属性的在图片上的占比小于10%
3分:可用-所有属性正确,个别细微偏差
4分:好用-所有属性完全准确,细节丰富

结构遵循度评分标准:
0分:有害/完全无用-元素间关系完全错误或缺失
1分:难用/不好用-主要关系错误,部分无关元素关联
2分:大部分可用-大部分关系正确,少量混淆
3分:可用-关系基本正确,个别细节偏差
4分:好用-所有关系准确,空间 / 逻辑结构无误

约束遵循度评分标准:
0分:有害/完全无用-所有约束均未遵循
1分:难用/不好用-大部分约束未遵循错误约束的在图片上的占比大于10%
2分:大部分可用-少量约束未遵循错误约束的在图片上的占比小于10%
3分:可用-所有约束遵循,个别细节偏差
4分:好用-所有约束完全遵循,无遗漏

评估置信度

86.50%

评估器参数说明

参数

参数名称

是否必填

参数说明

输入信息

query

用户输入内容

reply_imgs

回复图片list

输出信息

result_str

评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "把图中的碗变小"
    },
    "{{reply_imgs}}": {
        "content_type": "multi_part",
        "multi_part": [
            {
                "content_type": "image",
                "image": {
                    "url": "https://lf-stark-public.bytetos.com/obj/stark-public/vlm_benchmark/Instructions/output_7.png"
                }
            }
        ]
    }
}

输出格式 (Output Schema)

{
  "总体得分": "0",// 表示整体的评估分数
  "打分细节": "", //具体的评分依据
  "782": {}, //主体遵循度的评估分数和理由
  "783": {}, //属性遵循度的评估分数和理由
  "784": {}, //结构遵循度的评估分数和理由
  "785": {}, //约束遵循度的评估分数和理由
}