|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
文生图-指令遵循 |
|
评估器类型 |
黑盒评估器,评估标准的明细不对客展示 |
|
|
效果说明 |
功能概述 |
考察文生图场景下,生成图片是否满足用户诉求的能力指标,包含主体遵循度、属性遵循度、结构遵循度、约束遵循度。 |
|
评估方式 |
复合评估器(LLM + Code) |
|
|
评估对象 |
图片 |
|
|
评估目标 |
内容质量 |
|
|
应用场景 |
AIGC 产物质量评估 |
|
|
评估规则说明 |
总体得分取各个维度的最低分 主体遵循度评分标准: 属性遵循度评分标准: 结构遵循度评分标准: 约束遵循度评分标准: |
|
|
评估置信度 |
86.50% |
|
|
参数 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入信息 |
query |
是 |
用户输入内容 |
|
reply_imgs |
是 |
回复图片list |
|
|
输出信息 |
result_str |
是 |
评估分数和具体评估理由 |
{
"{{query}}": {
"content_type": "text",
"json_schema": "{\"type\": \"string\"}",
"text": "把图中的碗变小"
},
"{{reply_imgs}}": {
"content_type": "multi_part",
"multi_part": [
{
"content_type": "image",
"image": {
"url": "https://lf-stark-public.bytetos.com/obj/stark-public/vlm_benchmark/Instructions/output_7.png"
}
}
]
}
}
{
"总体得分": "0",// 表示整体的评估分数
"打分细节": "", //具体的评分依据
"782": {}, //主体遵循度的评估分数和理由
"783": {}, //属性遵循度的评估分数和理由
"784": {}, //结构遵循度的评估分数和理由
"785": {}, //约束遵循度的评估分数和理由
}