助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

什么是评测

更新于: 2026-06-24 15:45:09

扣子罗盘的评测功能提供标准评测数据管理、自动化评估引擎和综合的实验结果统计,帮助开发者在效果、性能和成本方面优化 AI Agent。

什么是评测

评测 (Evaluation) 是一种通过结构化评估框架,对评估对象进行全面质量监控和优化的过程。其核心在于建立多种评估策略(如 LLM 辅助评估、人工校准评估)以及多维度指标(包括质量、性能和成本)。结合全链路追踪技术,评测能够分析 AI Agent 的输入输出过程,进行异常检测,并推动持续集成流程的优化。
评测的目标是确保评估对象在各个方面都能达到预期,包括功能性(如意图理解的准确性和可靠性)和经济性(如单次推理的成本)。通过评测,开发者可以有效地提升评估对象的质量和效率。

说明

目前,扣子罗盘支持 Prompt 、扣子智能体、扣子工作流和火山智能体作为评测对象。

评测分为离线评测和在线评测两种方式。

离线评测

在应用上线前,使用预设的评测集进行效果测试。离线评测主要用于在日常开发迭代中验证新版本的功能表现,确保上线质量。

在线评测

应用上线后,系统会基于真实的 Trace 数据,自动采样应用的输入和输出进行评测。在线评测能帮助你在实际运行中持续监控应用质量,及时发现并解决问题,从而降低人工运维成本。

功能模块

扣子罗盘的评测功能由三个核心模块构成:评测集、评估器和实验。

  • 评测集:评测集是用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果,帮助开发者验证评估对象的效果。
    • 输入数据:提供给评测对象的标准化测试输入,用于评估其在不同场景下的表现。
    • 预期输出(可选):理想的输出结果,作为评估基准,作为某些评估器的参考输入。
  • 评估器:作为评测过程中的裁判,评估器负责量化评测对象的表现。它通过以下方式进行评估:
    • 指标得分:评估器根据预定义的评估标准对评测对象进行评分,涵盖准确性、效率等多个维度。
    • 原因分析:提供评分原因,帮助开发者理解评测对象优劣原因及改进方向。
  • 实验:综合汇总评测过程中的所有数据和分析结果,助力开发者进行业务决策。实验报告包括以下部分:
    • 评测集数据:所有测试输入和预期输出数据。
    • 评测对象输出结果的评分结果:详细揭露评测对象在各测试场景下的实际输出、成本、性能表现。
    • 评估器打分(即评估指标):提供不同评估器的评分结果,从多个角度分析评测对象的表现。

为什么选择扣子罗盘评测

  • 深度联动:与提示词、扣子智能体功能深度整合,支持一键对其进行发起评测实验。
  • 开箱即用:提供多种高质量评估器模板,可一键创建评估器后用于评测。
  • 版本控制:针对评估器、评测集提供多版本管理能力,助力持续优化迭代评估器(如 LLM 评估器准确度)、评测集(如数据规模、数据质量)。
  • 实验深度洞察:实验报告提供内置的数据分析图表,并支持多个实验报告的横向对比,帮助您通过详细数据、抽象图表挖掘表现更优的实验配置组合,进而辅助业务决策。例如指导提示词、评估器的优化方向、扣子智能体故障修复等。

快速开始

计费

针对个人免费版和进阶版,扣子罗盘为每个扣子账号赠送 10 次免费评测实验额度,开启实验不消耗资源点,额度用尽后将消耗资源点评测。针对不同商业化计划方案的用户,每日赠送的资源点额度有差异,详情请参考扣子罗盘套餐权益说明。

说明

扣子主账号和子账号共用免费评测实验额度。