知识问答-指令遵循评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类		详情
基础信息	评估器名称	知识问答-指令遵循
基础信息	评估器类型	黑盒评估器，评估标准的明细不对客展示
效果说明	功能概述	本维度旨在考察知识问答场景下， AI是否全面、准确地理解并执行了用户在指令中提出的所有需求。我们将用户指令拆分为主需求和次需求两个层面进行评估。 1 主需求 (Main Need) 定义：指用户指令中的核心任务或根本问题，是模型回复必须解决的主要目标。如果主需求未被满足，则该回复在根本上是失败的。识别要点：通常是指令中的动词或疑问词所指向的核心动作或信息，如 “写一个…”、“总结一下…”、“翻译…”、“… 是什么？”、“帮我规划…”。示例： “总结这篇文章” -> 主需求是 “进行总结”。 “给我写一首关于月亮的诗” -> 主需求是 “创作诗歌”。 “苹果公司的创始人是谁？” -> 主需求是 “回答‘乔布斯’等相关信息”。 2 次需求 (Secondary Need) 定义：指对模型完成主需求的方式、格式、风格、范围等提出的附加约束或扩展要求。次需求服务于主需求，规定了 “如何做” 或 “做成什么样”。识别要点：通常是指令中的修饰性、限制性词语。可细分为：约束性需求：格式 (Format)：如 “用表格展示”、“以要点列表形式”、“Markdown 代码块”。篇幅 (Length)：如 “500 字左右”、“不超过 200 字”、“三段话”。数量 (Quantity)：如 “列出 5 个原因”、“举 3 个例子”。风格 / 语气 (Style/Tone)：如 “用活泼的语气”、“正式一些”、“像儿童老师一样解释”。角色扮演 (Role-play)：如 “你现在是一个面试官，向我提问”。范围 (Scope)：如 “仅限 21 世纪的发现”、“中国的传统节日”、“从经济学角度分析”。语言 (Language)：如 “用英文回答”。扩展性需求：为了更好地满足主需求而需要补充的支撑性或延展性信息。如在行程规划中，“推荐当地特色餐厅” 就是对 “规划行程” 主需求的扩展。
	评估方式	复合评估器（LLM + Code）
	评估对象	文本
	评估目标	内容质量
	应用场景	AIGC 产物质量评估
	评估规则说明	评分范围 0 ～ 4 分评分标准 0分：有害/完全无用-主需求完全未满足。回复内容与用户核心任务完全无关、复述用户问题、无理由拒绝回答，或生成的内容完全不可用。 1分：难用/不好用-主需求被严重误解或仅有极少量满足，回复基本不可用。模型虽然尝试回应，但方向性错误，或内容残缺到几乎没有参考价值。 2分：大部分可用-主需求被部分满足，但存在重大遗漏；或者主需求基本满足，但几乎所有次需求均未满足。回复有一定参考价值，但需要用户进行大量的补充或修正。 3分：可用-主需求被完整满足，但一个或多个重要的次需求未被满足。回复的核心内容正确且可用，但在格式、风格、数量等方面存在明显不足。 4分：好用-主需求和所有次需求均被全面、准确地满足。回复完美地执行了用户的所有指令，质量高，无需修改即可直接使用。
	评估置信度	90.00%

评估器参数说明

参数	参数名称	是否必填	参数说明
输入信息	query	是	用户输入内容
输入信息	reply	是	回复文本
输出信息	result_str		评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "推荐一些北川当地有名的餐厅"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "基于你对北川当地有名餐厅的需求，我从**特色程度、口碑评分、文化体验**三个不同维度为你筛选推荐..."
    }
}

输出格式 (Output Schema)

{
  "score": "1.0",// 表示整体的评估分数
  "reason": ""// 具体的评分依据
}