|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
图生图-图文匹配度评估工具 |
|
评估器类型 |
黑盒评估器 |
|
|
效果说明 |
功能概述 |
针对(T+Multi-Image)2 Image场景,生成结果对于输入Prompt的响应度可用情况(1-可用,0-不可用),输入和输出均为Excel表格形式 |
|
评估方式 |
LLM 评估器 |
|
|
评估对象 |
图片 |
|
|
评估目标 |
内容质量 |
|
|
应用场景 |
AIGC 产物质量评估 |
|
|
评估规则说明 |
得分说明:总分范围在[“1”, “0”],1表示效果图在图文匹配度维度能达到可用(不是图文匹配度维度的badcase),0表示不可用(是图文匹配度维度的badcase) |
|
|
评估置信度 |
在100条多图评测数据集上,准确率85% |
|
|
参数 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入信息 |
input_images |
是 |
list,输入图像的URL列表,支持1~10图 |
|
user_prompt |
是 |
string,用户输入prompt |
|
|
result_image |
是 |
string,效果图的URL链接 |
|
|
输出信息 |
score |
是 |
float,取值范围[“1”, “0”],0表示图文匹配度维度下不可用,1表示图文匹配度维度下可用 |
|
reasoning |
是 |
string,大模型推理过程 |
{
"input_images": [
"https://pic.616pic.com/photoone/00/02/25/618cf325158d22512.jpg!/fw/1120",
"https://pic.616pic.com/photoone/00/07/45/619763b436d2c699.jpg!/fw/1120"
],// 输入多个图片
"user_prompt": "图1跟图2手牵着手在漫步,路边长着几朵小花,古道,古树,青砖铺路", // 用户prompt
"result_image": "https://pic.616pic.com/photoone/00/00/08/618ce5c557c786669.jpg!/fw/1120" // 模型生成效果图
}
{
"score": 0,
"reasoning": "我现在需要处理用户的评估请求。首先,回顾一下任务要求:评估生成的效果图是否符合“参考图+prompt”的要求,输出0或1。首先,我需要明确参考图、prompt和效果图的内容。\n\n首先,参考图有两张:第一张是一个穿粉色卫衣、牛仔裤、戴墨镜、拿饮料的小女孩;第二张是一个穿绿格子上衣、白裤子、扎双麻花辫、在草地上跳跃的小女孩。然后,prompt文本是:“图1跟图2手牵着手在漫步,路边长着几朵小花,古道,古树,青砖铺路”。接下来是效果图,需要检查是否符合prompt的要求。\n\n首先,分解prompt的核心要素:1. 图1和图2的人物(即两个小女孩);2. 手牵着手;3. 漫步(动作);4. 路边有小花;5. 古道;6. 古树;7. 青砖铺路。这些是prompt中的关键要素,共7个。\n\n接下来看效果图:效果图中有两个小女孩,左边的是图1的人物(粉色卫衣、牛仔裤、墨镜),右边的是图2的人物(绿格子上衣、白裤子、麻花辫,头上有花),她们手牵着手,正在漫步(动作符合)。路边有小花(右下角有粉色和白色的小花),古道(两边是老房子的巷子,符合古道),古树(两边有粗大的古树,树干有苔藓),青砖铺路(地面是绿色的青砖,符合)。\n\n现在统计响应的要素:1. 两个人物:是;2. 手牵手:是;3. 漫步:是;4. 路边小花:是;5. 古道:是;6. 古树:是;7. 青砖铺路:是。所有7个要素都被响应,远超过60%的要求(至少4.2个,这里全中)。没有语义矛盾,所有要素都符合prompt的描述。\n\n所以,响应度达标,语义一致,应该输出1。"
}