> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

扣子罗盘的评测功能提供标准评测数据管理、自动化评估引擎和综合的实验结果统计，帮助开发者在效果、性能和成本方面优化 AI Agent。
# 什么是评测 {#bd534bb0}
评测 (Evaluation) 是一种通过结构化评估框架，对评估对象进行全面质量监控和优化的过程。其核心在于建立多种评估策略（如 LLM 辅助评估、人工校准评估）以及多维度指标（包括质量、性能和成本）。结合全链路追踪技术，评测能够分析 AI Agent 的输入输出过程，进行异常检测，并推动持续集成流程的优化。
评测的目标是确保评估对象在各个方面都能达到预期，包括功能性（如意图理解的准确性和可靠性）和经济性（如单次推理的成本）。通过评测，开发者可以有效地提升评估对象的质量和效率。
:::tip 说明
目前，扣子罗盘支持 Prompt 、扣子智能体、扣子工作流和火山智能体作为评测对象。
:::
评测分为离线评测和在线评测两种方式。
## **离线评测** {#927bdc05}
在应用上线前，使用预设的评测集进行效果测试。离线评测主要用于在日常开发迭代中验证新版本的功能表现，确保上线质量。
## **在线评测** {#cfd3a9b9}
应用上线后，系统会基于真实的 Trace 数据，自动采样应用的输入和输出进行评测。在线评测能帮助你在实际运行中持续监控应用质量，及时发现并解决问题，从而降低人工运维成本。
# 功能模块 {#16fb177c}
扣子罗盘的评测功能由三个核心模块构成：评测集、评估器和实验。

* **评测集**：评测集是用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果，帮助开发者验证评估对象的效果。
   * **输入数据**：提供给评测对象的标准化测试输入，用于评估其在不同场景下的表现。
   * **预期输出（可选）**：理想的输出结果，作为评估基准，作为某些评估器的参考输入。
* **评估器**：作为评测过程中的裁判，评估器负责量化评测对象的表现。它通过以下方式进行评估：
   * **指标得分**：评估器根据预定义的评估标准对评测对象进行评分，涵盖准确性、效率等多个维度。
   * **原因分析**：提供评分原因，帮助开发者理解评测对象优劣原因及改进方向。
* **实验**：综合汇总评测过程中的所有数据和分析结果，助力开发者进行业务决策。实验报告包括以下部分：
   * **评测集数据**：所有测试输入和预期输出数据。
   * **评测对象输出结果的评分结果**：详细揭露评测对象在各测试场景下的实际输出、成本、性能表现。
   * **评估器打分（即评估指标）**：提供不同评估器的评分结果，从多个角度分析评测对象的表现。

# 为什么选择扣子罗盘评测 {#68945183}

* **深度联动**：与提示词、扣子智能体功能深度整合，支持一键对其进行发起评测实验。
* **开箱即用**：提供多种高质量评估器模板，可一键创建评估器后用于评测。
* **版本控制**：针对评估器、评测集提供多版本管理能力，助力持续优化迭代评估器（如 LLM 评估器准确度）、评测集（如数据规模、数据质量）。
* **实验深度洞察**：实验报告提供内置的数据分析图表，并支持多个实验报告的横向对比，帮助您通过详细数据、抽象图表挖掘表现更优的实验配置组合，进而辅助业务决策。例如指导提示词、评估器的优化方向、扣子智能体故障修复等。

# 快速开始 {#c19911dd}

* [评测入门教程](/cozeloop/evaluation-quick-start)
* [管理评测集](/cozeloop/create-dataset)
* [管理自建评估器](/cozeloop/create_evaluators)
* [管理实验](/cozeloop/create-experiments)

# 计费 {#f462489b}
针对个人免费版和进阶版，扣子罗盘为每个扣子账号赠送 10 次免费评测实验额度，开启实验不消耗资源点，额度用尽后将消耗资源点评测。针对不同商业化计划方案的用户，每日赠送的资源点额度有差异，详情请参考[扣子罗盘套餐权益](https://www.coze.cn/premium)说明。
:::tip 说明
扣子主账号和子账号共用免费评测实验额度。
:::

