知识问答-真实准确评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类		详情
基础信息	评估器名称	知识问答-真实准确
基础信息	评估器类型	黑盒评估器，评估标准的明细不对客展示
效果说明	功能概述	评估客观类事实真实性，时效性，计算的准确性，知识的正确性。真实性考察模型回复内容中，可被验证的客观事实性陈述是否存在与公认事实不符的情况。事实性陈述是指那些可以依据权威、可靠信源（如官方记录、科学文献、历史档案、公认的百科全书等）来验证其真伪的表述。本维度考察的错误类型：客观事实类错误：与科学、历史、法律、地理、数学等领域公认事实相悖的陈述。例如：“地球是方的”、“爱因斯坦发现了牛顿三定律”。大众共识类错误：与特定文化、社会或领域内广泛接受的常识相悖的陈述。例如：“企鹅生活在北极”、“重庆火锅口味清淡”。评测范围说明 (Scope)：不包含：主观观点、价值判断、创意性内容（如诗歌、小说）、预测性陈述。不包含：错别字、语法错误、标点符号错误。这些属于 “语言质量” 维度。不包含：逻辑推理错误（如前提正确但推导过程错误）、数学计算错误。这些属于 “逻辑推理” 维度。不包含：翻译的 “信达雅” 问题。但如果翻译导致了事实性信息的扭曲（如将 “President” 翻译成 “国王”），则属于真实性错误。时效性考察当用户问题涉及动态变化、持续发展或有明确时间节点的信息时，模型回复是否提供了截至其知识库更新日期为止的、最新的、未过时的信息。强时效性问题类型：新闻与时事：近期发生的事件、正在进行中的事件（如 “某地洪水情况如何？”、“某项法案的最新进展？”）。科技与产品：软件版本、手机型号、技术标准、科学发现（如 “最新的 iPhone 是哪一款？”、“Python 3.12 有什么新特性？”）。法律与政策：新颁布或修订的法律法规、政策变动（如 “2024 年最新的个税起征点是多少？”）。文娱与体育：电影上映日期、体育赛事结果、排行榜单（如 “今年奥斯卡最佳影片是哪部？”）。人物与机构信息：在世人物的职位、机构的最新动态（如 “现任法国总理是谁？”）。非时效性问题类型：历史事件、经典理论、不变的自然规律、虚构作品情节等。对于这类问题，本维度不适用，或默认评为最高分（除非模型给出了已被学界修正的过时历史观点）。准确性针对客观场景考察回复结果是否正确
	评估方式	复合评估器（LLM + Code）
	评估对象	文本
	评估目标	内容质量
	应用场景	AIGC 产物质量评估
	评估规则说明	真实性评分标准： 0分：有害/完全无用-回复的核心论点或关键信息建立在错误的事实之上，导致整个回复完全不可信，具有严重的误导性。 1分：难用/不好用-回复的主体内容或关键结论包含一个或多个严重的事实错误，使得回复丧失了大部分参考价值。尽管可能包含少量正确信息，但核心部分是错误的。 2分：大部分可用-回复的主体内容和核心结论基本正确，但在用于支撑或解释的辅助信息、例子、或次要细节上存在明显的事实错误，这些错误会影响用户对核心内容的准确理解或应用。 3分：可用-回复的核心内容和主要支撑信息均事实准确，仅在一些非关键的、延伸性的背景信息或不重要的细节上存在微小的事实错误。该错误不影响用户对核心问题的理解和答案的整体可用性。 4分：好用-所有属性完全准确，细节丰富-回复中所有可被验证的事实性陈述均准确无误，与公认事实和权威信源一致。时效性评分标准： 0分：有害/完全无用-对于强时效性问题，回复的核心信息（主需求）完全过时，导致答案失去价值并产生严重误导。 1分：难用/不好用-对于强时效性问题，回复的核心信息（主需求）部分过时，或提供了非最新的 “次新” 信息，导致答案不完整或不够准确，参考价值有限。 2分：大部分可用-核心信息（主需求）是及时的，但在用于解释、举例或扩展的辅助信息（次需求）中，包含了明显过时的信息，可能影响用户对细节的准确把握。 3分：可用-核心信息和主要辅助信息都准确及时，仅在一些非关键的、延伸性的背景信息或旁枝末节上存在微小的过时之处，不影响答案的整体质量和可用性。 4分：好用-对于强时效性问题，回复中所有信息均准确反映了截至其知识库更新日期的最新情况。对于非时效性问题，本维度自动获得此分数。
	评估置信度	80.00%

评估器参数说明

参数	参数名称	是否必填	参数说明
输入信息	query	是	用户输入内容
	reply	是	模型的回复文本
	base_time	否	回复文本的时间，比如“2025-11-03”
输出信息	result_str	是	评估分数和具体评估理由

输入格式 (Input Schema)

{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "今天天气怎么样"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "今天天气20度"
    },
    "{{base_time}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "2025-11-03"
    }
}

输出格式 (Output Schema)

{
  "综合得分": "0",// 表示整体的评估分数
  "949": {}, //真实性评估结果
  "950": {}, //时效性评估结果
  "951": {} //准确性评估结果
}