助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

知识问答-指令遵循评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类

详情

基础信息

评估器名称

知识问答-指令遵循

评估器类型

黑盒评估器,评估标准的明细不对客展示

效果说明

功能概述

本维度旨在考察知识问答场景下, AI是否全面、准确地理解并执行了用户在指令中提出的所有需求。我们将用户指令拆分为主需求和次需求两个层面进行评估。

1 主需求 (Main Need)
定义:指用户指令中的核心任务或根本问题,是模型回复必须解决的主要目标。如果主需求未被满足,则该回复在根本上是失败的。
识别要点:通常是指令中的动词或疑问词所指向的核心动作或信息,如 “写一个…”、“总结一下…”、“翻译…”、“… 是什么?”、“帮我规划…”。
示例:
“总结这篇文章” -> 主需求是 “进行总结”。
“给我写一首关于月亮的诗” -> 主需求是 “创作诗歌”。
“苹果公司的创始人是谁?” -> 主需求是 “回答‘乔布斯’等相关信息”。

2 次需求 (Secondary Need)
定义:指对模型完成主需求的方式、格式、风格、范围等提出的附加约束或扩展要求。次需求服务于主需求,规定了 “如何做” 或 “做成什么样”。
识别要点:通常是指令中的修饰性、限制性词语。可细分为:

约束性需求:
格式 (Format):如 “用表格展示”、“以要点列表形式”、“Markdown 代码块”。
篇幅 (Length):如 “500 字左右”、“不超过 200 字”、“三段话”。
数量 (Quantity):如 “列出 5 个原因”、“举 3 个例子”。
风格 / 语气 (Style/Tone):如 “用活泼的语气”、“正式一些”、“像儿童老师一样解释”。
角色扮演 (Role-play):如 “你现在是一个面试官,向我提问”。
范围 (Scope):如 “仅限 21 世纪的发现”、“中国的传统节日”、“从经济学角度分析”。
语言 (Language):如 “用英文回答”。

扩展性需求:
为了更好地满足主需求而需要补充的支撑性或延展性信息。如在行程规划中,“推荐当地特色餐厅” 就是对 “规划行程” 主需求的扩展。

评估方式

复合评估器(LLM + Code)

评估对象

文本

评估目标

内容质量

应用场景

AIGC 产物质量评估

评估规则说明

评分范围
0 ~ 4 分
评分标准
0分:有害/完全无用-主需求完全未满足。 回复内容与用户核心任务完全无关、复述用户问题、无理由拒绝回答,或生成的内容完全不可用。

1分:难用/不好用-主需求被严重误解或仅有极少量满足,回复基本不可用。 模型虽然尝试回应,但方向性错误,或内容残缺到几乎没有参考价值。

2分:大部分可用-主需求被部分满足,但存在重大遗漏;或者主需求基本满足,但几乎所有次需求均未满足。 回复有一定参考价值,但需要用户进行大量的补充或修正。

3分:可用-主需求被完整满足,但一个或多个重要的次需求未被满足。 回复的核心内容正确且可用,但在格式、风格、数量等方面存在明显不足。

4分:好用-主需求和所有次需求均被全面、准确地满足。 回复完美地执行了用户的所有指令,质量高,无需修改即可直接使用。

评估置信度

90.00%

评估器参数说明

参数

参数名称

是否必填

参数说明

输入信息

query

用户输入内容

reply

回复文本

输出信息

result_str

评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "推荐一些北川当地有名的餐厅"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "基于你对北川当地有名餐厅的需求,我从**特色程度、口碑评分、文化体验**三个不同维度为你筛选推荐..."
    }
}

输出格式 (Output Schema)

{
  "score": "1.0",// 表示整体的评估分数
  "reason": ""// 具体的评分依据
}