> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

## 评估器信息 {#c48285c2}
<!-- @cols-width: 100,100,751 -->
| || | \
|**分类** | |**详情** |
|---|---|---|
| | | | \
|**基础信息** |**评估器名称** |知识问答-指令遵循 |
|^^| | | \
| |**评估器类型**  |黑盒评估器，评估标准的明细不对客展示 |
| | | | \
|**效果说明** |**功能概述**  |本维度旨在考察知识问答场景下， AI是否全面、准确地理解并执行了用户在指令中提出的所有需求。我们将用户指令拆分为主需求和次需求两个层面进行评估。 |\
| | | |\
| | |1 主需求 (Main Need) |\
| | |定义：指用户指令中的核心任务或根本问题，是模型回复必须解决的主要目标。如果主需求未被满足，则该回复在根本上是失败的。 |\
| | |识别要点：通常是指令中的动词或疑问词所指向的核心动作或信息，如 “写一个...”、“总结一下...”、“翻译...”、“... 是什么？”、“帮我规划...”。 |\
| | |示例： |\
| | |“总结这篇文章” -> 主需求是 “进行总结”。 |\
| | |“给我写一首关于月亮的诗” -> 主需求是 “创作诗歌”。 |\
| | |“苹果公司的创始人是谁？” -> 主需求是 “回答‘乔布斯’等相关信息”。 |\
| | | |\
| | |2 次需求 (Secondary Need) |\
| | |定义：指对模型完成主需求的方式、格式、风格、范围等提出的附加约束或扩展要求。次需求服务于主需求，规定了 “如何做” 或 “做成什么样”。 |\
| | |识别要点：通常是指令中的修饰性、限制性词语。可细分为： |\
| | | |\
| | |约束性需求： |\
| | |格式 (Format)：如 “用表格展示”、“以要点列表形式”、“Markdown 代码块”。 |\
| | |篇幅 (Length)：如 “500 字左右”、“不超过 200 字”、“三段话”。 |\
| | |数量 (Quantity)：如 “列出 5 个原因”、“举 3 个例子”。 |\
| | |风格 / 语气 (Style/Tone)：如 “用活泼的语气”、“正式一些”、“像儿童老师一样解释”。 |\
| | |角色扮演 (Role-play)：如 “你现在是一个面试官，向我提问”。 |\
| | |范围 (Scope)：如 “仅限 21 世纪的发现”、“中国的传统节日”、“从经济学角度分析”。 |\
| | |语言 (Language)：如 “用英文回答”。 |\
| | | |\
| | |扩展性需求： |\
| | |为了更好地满足主需求而需要补充的支撑性或延展性信息。如在行程规划中，“推荐当地特色餐厅” 就是对 “规划行程” 主需求的扩展。 |
|^^| | | \
| |**评估方式**  |复合评估器（LLM + Code） |
|^^| | | \
| |**评估对象**  |文本 |
|^^| | | \
| |**评估目标**  |内容质量 |
|^^| | | \
| |**应用场景**  |AIGC 产物质量评估 |
|^^| | | \
| |**评估规则说明** |***评分范围*** |\
| | |0 ～ 4 分 |\
| | |***评分标准*** |\
| | |0分：有害/完全无用-主需求完全未满足。 回复内容与用户核心任务完全无关、复述用户问题、无理由拒绝回答，或生成的内容完全不可用。 |\
| | | |\
| | |1分：难用/不好用-主需求被严重误解或仅有极少量满足，回复基本不可用。 模型虽然尝试回应，但方向性错误，或内容残缺到几乎没有参考价值。 |\
| | | |\
| | |2分：大部分可用-主需求被部分满足，但存在重大遗漏；或者主需求基本满足，但几乎所有次需求均未满足。 回复有一定参考价值，但需要用户进行大量的补充或修正。 |\
| | | |\
| | |3分：可用-主需求被完整满足，但一个或多个重要的次需求未被满足。 回复的核心内容正确且可用，但在格式、风格、数量等方面存在明显不足。 |\
| | | |\
| | |4分：好用-主需求和所有次需求均被全面、准确地满足。 回复完美地执行了用户的所有指令，质量高，无需修改即可直接使用。 |
|^^| | | \
| |**评估置信度** |90.00% |

## 评估器参数说明 {#12f5db8c}
<!-- @cols-width: 100,135,100,174 -->
| | | | | \
|参数 |参数名称 |是否必填 |参数说明 |
|---|---|---|---|
| | | | | \
|输入信息 |query |是 |用户输入内容 |
|^^| | | | \
| |reply |是 |回复文本 |
| | | | | \
|输出信息 |result_str | |评估分数和具体评估理由 |

### 输入格式 (Input Schema) {#7fe5553f}
```JSON
{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "推荐一些北川当地有名的餐厅"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "基于你对北川当地有名餐厅的需求，我从**特色程度、口碑评分、文化体验**三个不同维度为你筛选推荐..."
    }
}
```

### 输出格式 (Output Schema) {#38ac4c87}
```JSON
{
  "score": "1.0",// 表示整体的评估分数
  "reason": ""// 具体的评分依据
}
```