助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

知识问答-丰富度评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类

详情

基础信息

评估器名称

知识问答-丰富度

评估器类型

黑盒评估器,评估标准的明细不对客展示

效果说明

功能概述

考察模型回复内容的信息量、广度和深度。一个丰富的回复不仅要准确回答用户的问题(满足主需求),还应围绕主题提供结构清晰、论据充分、视角多元的有效信息,并能进行适度的、有价值的延展,从而超出用户的基本预期,提供增益价值。丰富度反对空泛的套话、无意义的重复和信息的简单堆砌。

评估的三个层次:
核心信息 (Core Information):直接回答用户问题的关键内容。这是满足主需求的基础。
支撑信息 (Supporting Information):用于解释、论证或具体化核心信息的材料,如例子、数据、原因分析、背景介绍等。它们使核心信息更可信、更易懂。
延展信息 (Extended Information):在回答完核心问题后,提供的与主题紧密相关且对用户有帮助的额外信息,如相关概念、注意事项、不同观点、未来趋势、实用建议等。它们体现了回答的深度和广度。
评测要点:
广度:是否从多个角度、多个方面来阐述问题?
深度:是否对关键点进行了深入的解释或分析,而非浅尝辄止?
价值:提供的信息是否有效、有益,而非 “正确的废话”?

评估方式

复合评估器(LLM + Code)

评估对象

文本

评估目标

内容质量

应用场景

AIGC 产物质量评估

评估规则说明

丰富度评分标准
0分:有害/完全无用-回复完全由空话、套话构成,或仅简单复述问题,未提供任何有效的核心信息。 整个回复没有任何信息增益。
1分:难用/不好用-仅提供了极其有限的核心信息,缺乏必要的解释和支撑,内容单薄。 回复就像一个简单的词条,用户无法获得深入的理解。
2分:大部分可用-主需求被部分满足,但存在重大遗漏;或者主需求基本满足,但几乎所有次需求均未满足。 回复有一定参考价值,但需要用户进行大量的补充或修正。
3分:可用-提供了必要的核心信息,但缺乏足够的支撑信息和任何延展信息。 回复能够回答 “是什么”,但很少解释 “为什么” 和 “怎么做”,整体显得干瘪。
4分:好用-在提供完整核心信息和充分支撑信息的基础上,还提供了有价值的延展信息,展现了出色的广度和深度。 回复不仅解决了用户的问题,还启发了用户的进一步思考。
特异性评分标准
0分:有害/完全无用-回复完全由通用模板化的语言构成,不包含任何与用户提问主体相关的具体信息。 整个回答空洞无物,对用户没有任何实际价值。
1分:难用/不好用-回复绝大部分内容是通用模板,仅在表面上提及了提问主体,但没有提供任何实质性的特异信息。 只是将通用模板和关键词进行了简单拼接。
2分:大部分可用-回复中包含了一些特异性信息,但主体内容仍然是通用性描述,或者特异性信息不够深入、不够关键。 用户能获得一些信息,但感觉不够 “解渴”。
3分:可用-回复的主体部分能够提供针对性的、具体的特异信息,但可能在某些方面分析不够全面,或夹杂了少量通用性内容。 回答已经具有很好的参考价值。
4分:好用-回复全面、深入地围绕用户提问的特定主体和场景展开,提供了丰富、具体、多维度的特异性信息,并进行了有洞察的分析。 整个回答几乎没有废话,价值密度极高。

评估置信度

90.00%

评估器参数说明

参数

参数名称

是否必填

参数说明

输入信息

query

用户输入内容

reply

回复文本

输出信息

result_str

评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "推荐一些北川当地有名的餐厅"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "基于你对北川当地有名餐厅的需求,我从**特色程度、口碑评分、文化体验**三个不同维度为你筛选推荐..."
    }
}

输出格式 (Output Schema)

{
  "score": "1.0",// 表示整体的评估分数
  "reason": ""// 具体的评分依据
}