助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

知识问答-真实准确评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类

详情

基础信息

评估器名称

知识问答-真实准确

评估器类型

黑盒评估器,评估标准的明细不对客展示

效果说明

功能概述

评估客观类事实真实性,时效性,计算的准确性,知识的正确性。
真实性
考察模型回复内容中,可被验证的客观事实性陈述是否存在与公认事实不符的情况。事实性陈述是指那些可以依据权威、可靠信源(如官方记录、科学文献、历史档案、公认的百科全书等)来验证其真伪的表述。
本维度考察的错误类型:
客观事实类错误:与科学、历史、法律、地理、数学等领域公认事实相悖的陈述。例如:“地球是方的”、“爱因斯坦发现了牛顿三定律”。
大众共识类错误:与特定文化、社会或领域内广泛接受的常识相悖的陈述。例如:“企鹅生活在北极”、“重庆火锅口味清淡”。
评测范围说明 (Scope):
不包含:主观观点、价值判断、创意性内容(如诗歌、小说)、预测性陈述。
不包含:错别字、语法错误、标点符号错误。这些属于 “语言质量” 维度。
不包含:逻辑推理错误(如前提正确但推导过程错误)、数学计算错误。这些属于 “逻辑推理” 维度。
不包含:翻译的 “信达雅” 问题。但如果翻译导致了事实性信息的扭曲(如将 “President” 翻译成 “国王”),则属于真实性错误。
时效性
考察当用户问题涉及动态变化、持续发展或有明确时间节点的信息时,模型回复是否提供了截至其知识库更新日期为止的、最新的、未过时的信息。
强时效性问题类型:
新闻与时事:近期发生的事件、正在进行中的事件(如 “某地洪水情况如何?”、“某项法案的最新进展?”)。
科技与产品:软件版本、手机型号、技术标准、科学发现(如 “最新的 iPhone 是哪一款?”、“Python 3.12 有什么新特性?”)。
法律与政策:新颁布或修订的法律法规、政策变动(如 “2024 年最新的个税起征点是多少?”)。
文娱与体育:电影上映日期、体育赛事结果、排行榜单(如 “今年奥斯卡最佳影片是哪部?”)。
人物与机构信息:在世人物的职位、机构的最新动态(如 “现任法国总理是谁?”)。
非时效性问题类型:
历史事件、经典理论、不变的自然规律、虚构作品情节等。对于这类问题,本维度不适用,或默认评为最高分(除非模型给出了已被学界修正的过时历史观点)。
准确性
针对客观场景考察回复结果是否正确

评估方式

复合评估器(LLM + Code)

评估对象

文本

评估目标

内容质量

应用场景

AIGC 产物质量评估

评估规则说明

真实性评分标准:
0分: 有害/完全无用-回复的核心论点或关键信息建立在错误的事实之上,导致整个回复完全不可信,具有严重的误导性。
1分: 难用/不好用-回复的主体内容或关键结论包含一个或多个严重的事实错误,使得回复丧失了大部分参考价值。 尽管可能包含少量正确信息,但核心部分是错误的。
2分: 大部分可用-回复的主体内容和核心结论基本正确,但在用于支撑或解释的辅助信息、例子、或次要细节上存在明显的事实错误,这些错误会影响用户对核心内容的准确理解或应用。
3分: 可用-回复的核心内容和主要支撑信息均事实准确,仅在一些非关键的、延伸性的背景信息或不重要的细节上存在微小的事实错误。该错误不影响用户对核心问题的理解和答案的整体可用性。
4分: 好用-所有属性完全准确,细节丰富-回复中所有可被验证的事实性陈述均准确无误,与公认事实和权威信源一致。
时效性评分标准:
0分: 有害/完全无用-对于强时效性问题,回复的核心信息(主需求)完全过时,导致答案失去价值并产生严重误导。
1分: 难用/不好用-对于强时效性问题,回复的核心信息(主需求)部分过时,或提供了非最新的 “次新” 信息,导致答案不完整或不够准确,参考价值有限。
2分: 大部分可用-核心信息(主需求)是及时的,但在用于解释、举例或扩展的辅助信息(次需求)中,包含了明显过时的信息,可能影响用户对细节的准确把握。
3分:可用-核心信息和主要辅助信息都准确及时,仅在一些非关键的、延伸性的背景信息或旁枝末节上存在微小的过时之处,不影响答案的整体质量和可用性。
4分: 好用-对于强时效性问题,回复中所有信息均准确反映了截至其知识库更新日期的最新情况。对于非时效性问题,本维度自动获得此分数。

评估置信度

80.00%

评估器参数说明

参数

参数名称

是否必填

参数说明

输入信息

query

用户输入内容

reply

模型的回复文本

base_time

回复文本的时间,比如“2025-11-03”

输出信息

result_str

评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "今天天气怎么样"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "今天天气20度"
    },
    "{{base_time}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "2025-11-03"
    }
}

输出格式 (Output Schema)

{
  "综合得分": "0",// 表示整体的评估分数
  "949": {}, //真实性评估结果
  "950": {}, //时效性评估结果
  "951": {} //准确性评估结果
}