|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
知识问答-指令遵循 |
|
评估器类型 |
黑盒评估器,评估标准的明细不对客展示 |
|
|
效果说明 |
功能概述 |
本维度旨在考察知识问答场景下, AI是否全面、准确地理解并执行了用户在指令中提出的所有需求。我们将用户指令拆分为主需求和次需求两个层面进行评估。 1 主需求 (Main Need) 2 次需求 (Secondary Need) 约束性需求: 扩展性需求: |
|
评估方式 |
复合评估器(LLM + Code) |
|
|
评估对象 |
文本 |
|
|
评估目标 |
内容质量 |
|
|
应用场景 |
AIGC 产物质量评估 |
|
|
评估规则说明 |
评分范围 1分:难用/不好用-主需求被严重误解或仅有极少量满足,回复基本不可用。 模型虽然尝试回应,但方向性错误,或内容残缺到几乎没有参考价值。 2分:大部分可用-主需求被部分满足,但存在重大遗漏;或者主需求基本满足,但几乎所有次需求均未满足。 回复有一定参考价值,但需要用户进行大量的补充或修正。 3分:可用-主需求被完整满足,但一个或多个重要的次需求未被满足。 回复的核心内容正确且可用,但在格式、风格、数量等方面存在明显不足。 4分:好用-主需求和所有次需求均被全面、准确地满足。 回复完美地执行了用户的所有指令,质量高,无需修改即可直接使用。 |
|
|
评估置信度 |
90.00% |
|
|
参数 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入信息 |
query |
是 |
用户输入内容 |
|
reply |
是 |
回复文本 |
|
|
输出信息 |
result_str |
评估分数和具体评估理由 |
{
"{{query}}": {
"content_type": "text",
"json_schema": "{\"type\": \"string\"}",
"text": "推荐一些北川当地有名的餐厅"
},
"{{reply}}": {
"content_type": "text",
"json_schema": "{\"type\": \"string\"}",
"text": "基于你对北川当地有名餐厅的需求,我从**特色程度、口碑评分、文化体验**三个不同维度为你筛选推荐..."
}
}
{
"score": "1.0",// 表示整体的评估分数
"reason": ""// 具体的评分依据
}