图生图-图文匹配度评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类		详情
基础信息	评估器名称	图生图-图文匹配度评估工具
基础信息	评估器类型	黑盒评估器
效果说明	功能概述	针对（T+Multi-Image）2 Image场景，生成结果对于输入Prompt的响应度可用情况（1-可用，0-不可用），输入和输出均为Excel表格形式
	评估方式	LLM 评估器
	评估对象	图片
	评估目标	内容质量
	应用场景	AIGC 产物质量评估
	评估规则说明	得分说明：总分范围在[“1”, “0”]，1表示效果图在图文匹配度维度能达到可用（不是图文匹配度维度的badcase），0表示不可用（是图文匹配度维度的badcase）
	评估置信度	在100条多图评测数据集上，准确率85%

评估器参数说明

参数	参数名称	是否必填	参数说明
输入信息	input_images	是	list，输入图像的URL列表，支持1~10图
	user_prompt	是	string，用户输入prompt
	result_image	是	string，效果图的URL链接
输出信息	score	是	float，取值范围[“1”, “0”]，0表示图文匹配度维度下不可用，1表示图文匹配度维度下可用
输出信息	reasoning	是	string，大模型推理过程

输入格式 (Input Schema)

{
    "input_images": [
        "https://pic.616pic.com/photoone/00/02/25/618cf325158d22512.jpg!/fw/1120",
        "https://pic.616pic.com/photoone/00/07/45/619763b436d2c699.jpg!/fw/1120"
    ],// 输入多个图片
    "user_prompt": "图1跟图2手牵着手在漫步，路边长着几朵小花，古道，古树，青砖铺路", // 用户prompt
    "result_image": "https://pic.616pic.com/photoone/00/00/08/618ce5c557c786669.jpg!/fw/1120" // 模型生成效果图
}

输出格式 (Output Schema)

{
    "score": 0,
    "reasoning": "我现在需要处理用户的评估请求。首先，回顾一下任务要求：评估生成的效果图是否符合“参考图+prompt”的要求，输出0或1。首先，我需要明确参考图、prompt和效果图的内容。\n\n首先，参考图有两张：第一张是一个穿粉色卫衣、牛仔裤、戴墨镜、拿饮料的小女孩；第二张是一个穿绿格子上衣、白裤子、扎双麻花辫、在草地上跳跃的小女孩。然后，prompt文本是：“图1跟图2手牵着手在漫步，路边长着几朵小花，古道，古树，青砖铺路”。接下来是效果图，需要检查是否符合prompt的要求。\n\n首先，分解prompt的核心要素：1. 图1和图2的人物（即两个小女孩）；2. 手牵着手；3. 漫步（动作）；4. 路边有小花；5. 古道；6. 古树；7. 青砖铺路。这些是prompt中的关键要素，共7个。\n\n接下来看效果图：效果图中有两个小女孩，左边的是图1的人物（粉色卫衣、牛仔裤、墨镜），右边的是图2的人物（绿格子上衣、白裤子、麻花辫，头上有花），她们手牵着手，正在漫步（动作符合）。路边有小花（右下角有粉色和白色的小花），古道（两边是老房子的巷子，符合古道），古树（两边有粗大的古树，树干有苔藓），青砖铺路（地面是绿色的青砖，符合）。\n\n现在统计响应的要素：1. 两个人物：是；2. 手牵手：是；3. 漫步：是；4. 路边小花：是；5. 古道：是；6. 古树：是；7. 青砖铺路：是。所有7个要素都被响应，远超过60%的要求（至少4.2个，这里全中）。没有语义矛盾，所有要素都符合prompt的描述。\n\n所以，响应度达标，语义一致，应该输出1。"
}