> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

## 评估器信息 {#e38ac41c}
<!-- @cols-width: 100,100,751 -->
| || | \
|**分类** | |**详情** |
|---|---|---|
| | | | \
|**基础信息** |**评估器名称**  |知识问答-真实准确 |
|^^| | | \
| |**评估器类型**  |黑盒评估器，评估标准的明细不对客展示 |
| | | | \
|**效果说明** |**功能概述**  |评估客观类事实真实性，时效性，计算的准确性，知识的正确性。 |\
| | |***真实性*** |\
| | |考察模型回复内容中，可被验证的客观事实性陈述是否存在与公认事实不符的情况。事实性陈述是指那些可以依据权威、可靠信源（如官方记录、科学文献、历史档案、公认的百科全书等）来验证其真伪的表述。 |\
| | |本维度考察的错误类型： |\
| | |客观事实类错误：与科学、历史、法律、地理、数学等领域公认事实相悖的陈述。例如：“地球是方的”、“爱因斯坦发现了牛顿三定律”。 |\
| | |大众共识类错误：与特定文化、社会或领域内广泛接受的常识相悖的陈述。例如：“企鹅生活在北极”、“重庆火锅口味清淡”。 |\
| | |评测范围说明 (Scope)： |\
| | |不包含：主观观点、价值判断、创意性内容（如诗歌、小说）、预测性陈述。 |\
| | |不包含：错别字、语法错误、标点符号错误。这些属于 “语言质量” 维度。 |\
| | |不包含：逻辑推理错误（如前提正确但推导过程错误）、数学计算错误。这些属于 “逻辑推理” 维度。 |\
| | |不包含：翻译的 “信达雅” 问题。但如果翻译导致了事实性信息的扭曲（如将 “President” 翻译成 “国王”），则属于真实性错误。 |\
| | |***时效性*** |\
| | |考察当用户问题涉及动态变化、持续发展或有明确时间节点的信息时，模型回复是否提供了截至其知识库更新日期为止的、最新的、未过时的信息。 |\
| | |强时效性问题类型： |\
| | |新闻与时事：近期发生的事件、正在进行中的事件（如 “某地洪水情况如何？”、“某项法案的最新进展？”）。 |\
| | |科技与产品：软件版本、手机型号、技术标准、科学发现（如 “最新的 iPhone 是哪一款？”、“Python 3.12 有什么新特性？”）。 |\
| | |法律与政策：新颁布或修订的法律法规、政策变动（如 “2024 年最新的个税起征点是多少？”）。 |\
| | |文娱与体育：电影上映日期、体育赛事结果、排行榜单（如 “今年奥斯卡最佳影片是哪部？”）。 |\
| | |人物与机构信息：在世人物的职位、机构的最新动态（如 “现任法国总理是谁？”）。 |\
| | |非时效性问题类型： |\
| | |历史事件、经典理论、不变的自然规律、虚构作品情节等。对于这类问题，本维度不适用，或默认评为最高分（除非模型给出了已被学界修正的过时历史观点）。 |\
| | |***准确性*** |\
| | |针对客观场景考察回复结果是否正确 |
|^^| | | \
| |**评估方式**  |复合评估器（LLM + Code） |
|^^| | | \
| |**评估对象**  |文本 |
|^^| | | \
| |**评估目标**  |内容质量 |
|^^| | | \
| |**应用场景**  |AIGC 产物质量评估 |
|^^| | | \
| |**评估规则说明** |真实性评分标准： |\
| | |0分：  有害/完全无用-回复的核心论点或关键信息建立在错误的事实之上，导致整个回复完全不可信，具有严重的误导性。 |\
| | |1分：  难用/不好用-回复的主体内容或关键结论包含一个或多个严重的事实错误，使得回复丧失了大部分参考价值。 尽管可能包含少量正确信息，但核心部分是错误的。 |\
| | |2分： 大部分可用-回复的主体内容和核心结论基本正确，但在用于支撑或解释的辅助信息、例子、或次要细节上存在明显的事实错误，这些错误会影响用户对核心内容的准确理解或应用。 |\
| | |3分： 可用-回复的核心内容和主要支撑信息均事实准确，仅在一些非关键的、延伸性的背景信息或不重要的细节上存在微小的事实错误。该错误不影响用户对核心问题的理解和答案的整体可用性。 |\
| | |4分： 好用-所有属性完全准确，细节丰富-回复中所有可被验证的事实性陈述均准确无误，与公认事实和权威信源一致。 |\
| | |时效性评分标准： |\
| | |0分： 有害/完全无用-对于强时效性问题，回复的核心信息（主需求）完全过时，导致答案失去价值并产生严重误导。 |\
| | |1分： 难用/不好用-对于强时效性问题，回复的核心信息（主需求）部分过时，或提供了非最新的 “次新” 信息，导致答案不完整或不够准确，参考价值有限。 |\
| | |2分： 大部分可用-核心信息（主需求）是及时的，但在用于解释、举例或扩展的辅助信息（次需求）中，包含了明显过时的信息，可能影响用户对细节的准确把握。 |\
| | |3分：可用-核心信息和主要辅助信息都准确及时，仅在一些非关键的、延伸性的背景信息或旁枝末节上存在微小的过时之处，不影响答案的整体质量和可用性。 |\
| | |4分： 好用-对于强时效性问题，回复中所有信息均准确反映了截至其知识库更新日期的最新情况。对于非时效性问题，本维度自动获得此分数。 |
|^^| | | \
| |**评估置信度** |80.00% |

## 评估器参数说明 {#30f468c6}
<!-- @cols-width: 100,156,100,270 -->
| | | | | \
|参数 |参数名称 |是否必填 |参数说明 |
|---|---|---|---|
| | | | | \
|输入信息 |query |是 |用户输入内容 |
|^^| | | | \
| |reply |是 |模型的回复文本 |
|^^| | | | \
| |base_time |否 |回复文本的时间，比如“2025-11-03” |
| | | | | \
|输出信息 |result_str |是 |评估分数和具体评估理由 |

### 输入格式 (Input Schema) {#54511aac}
```JSON
{
    "{{query}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "今天天气怎么样"
    },
    "{{reply}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "今天天气20度"
    },
    "{{base_time}}": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "2025-11-03"
    }
}
```

### 输出格式 (Output Schema) {#aed63b12}
```JSON
{
  "综合得分": "0",// 表示整体的评估分数
  "949": {}, //真实性评估结果
  "950": {}, //时效性评估结果
  "951": {} //准确性评估结果
}
```




