知识问答-丰富度评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类		详情
基础信息	评估器名称	知识问答-丰富度
基础信息	评估器类型	黑盒评估器，评估标准的明细不对客展示
效果说明	功能概述	考察模型回复内容的信息量、广度和深度。一个丰富的回复不仅要准确回答用户的问题（满足主需求），还应围绕主题提供结构清晰、论据充分、视角多元的有效信息，并能进行适度的、有价值的延展，从而超出用户的基本预期，提供增益价值。丰富度反对空泛的套话、无意义的重复和信息的简单堆砌。评估的三个层次：核心信息 (Core Information)：直接回答用户问题的关键内容。这是满足主需求的基础。支撑信息 (Supporting Information)：用于解释、论证或具体化核心信息的材料，如例子、数据、原因分析、背景介绍等。它们使核心信息更可信、更易懂。延展信息 (Extended Information)：在回答完核心问题后，提供的与主题紧密相关且对用户有帮助的额外信息，如相关概念、注意事项、不同观点、未来趋势、实用建议等。它们体现了回答的深度和广度。评测要点：广度：是否从多个角度、多个方面来阐述问题？深度：是否对关键点进行了深入的解释或分析，而非浅尝辄止？价值：提供的信息是否有效、有益，而非 “正确的废话”？
	评估方式	复合评估器（LLM + Code）
	评估对象	文本
	评估目标	内容质量
	应用场景	AIGC 产物质量评估
	评估规则说明	丰富度评分标准 0分：有害/完全无用-回复完全由空话、套话构成，或仅简单复述问题，未提供任何有效的核心信息。整个回复没有任何信息增益。 1分：难用/不好用-仅提供了极其有限的核心信息，缺乏必要的解释和支撑，内容单薄。回复就像一个简单的词条，用户无法获得深入的理解。 2分：大部分可用-主需求被部分满足，但存在重大遗漏；或者主需求基本满足，但几乎所有次需求均未满足。回复有一定参考价值，但需要用户进行大量的补充或修正。 3分：可用-提供了必要的核心信息，但缺乏足够的支撑信息和任何延展信息。回复能够回答 “是什么”，但很少解释 “为什么” 和 “怎么做”，整体显得干瘪。 4分：好用-在提供完整核心信息和充分支撑信息的基础上，还提供了有价值的延展信息，展现了出色的广度和深度。回复不仅解决了用户的问题，还启发了用户的进一步思考。特异性评分标准 0分：有害/完全无用-回复完全由通用模板化的语言构成，不包含任何与用户提问主体相关的具体信息。整个回答空洞无物，对用户没有任何实际价值。 1分：难用/不好用-回复绝大部分内容是通用模板，仅在表面上提及了提问主体，但没有提供任何实质性的特异信息。只是将通用模板和关键词进行了简单拼接。 2分：大部分可用-回复中包含了一些特异性信息，但主体内容仍然是通用性描述，或者特异性信息不够深入、不够关键。用户能获得一些信息，但感觉不够 “解渴”。 3分：可用-回复的主体部分能够提供针对性的、具体的特异信息，但可能在某些方面分析不够全面，或夹杂了少量通用性内容。回答已经具有很好的参考价值。 4分：好用-回复全面、深入地围绕用户提问的特定主体和场景展开，提供了丰富、具体、多维度的特异性信息，并进行了有洞察的分析。整个回答几乎没有废话，价值密度极高。
	评估置信度	90.00%

评估器参数说明

参数	参数名称	是否必填	参数说明
输入信息	query	是	用户输入内容
输入信息	reply	是	回复文本
输出信息	result_str		评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "推荐一些北川当地有名的餐厅"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "基于你对北川当地有名餐厅的需求，我从**特色程度、口碑评分、文化体验**三个不同维度为你筛选推荐..."
    }
}

输出格式 (Output Schema)

{
  "score": "1.0",// 表示整体的评估分数
  "reason": ""// 具体的评分依据
}