评测/什么是评测
什么是评测
更新于: 2026-06-24 15:45:09
扣子罗盘的评测功能提供标准评测数据管理、自动化评估引擎和综合的实验结果统计,帮助开发者在效果、性能和成本方面优化 AI Agent。
评测 (Evaluation) 是一种通过结构化评估框架,对评估对象进行全面质量监控和优化的过程。其核心在于建立多种评估策略(如 LLM 辅助评估、人工校准评估)以及多维度指标(包括质量、性能和成本)。结合全链路追踪技术,评测能够分析 AI Agent 的输入输出过程,进行异常检测,并推动持续集成流程的优化。
评测的目标是确保评估对象在各个方面都能达到预期,包括功能性(如意图理解的准确性和可靠性)和经济性(如单次推理的成本)。通过评测,开发者可以有效地提升评估对象的质量和效率。
说明
目前,扣子罗盘支持 Prompt 、扣子智能体、扣子工作流和火山智能体作为评测对象。
评测分为离线评测和在线评测两种方式。
在应用上线前,使用预设的评测集进行效果测试。离线评测主要用于在日常开发迭代中验证新版本的功能表现,确保上线质量。
应用上线后,系统会基于真实的 Trace 数据,自动采样应用的输入和输出进行评测。在线评测能帮助你在实际运行中持续监控应用质量,及时发现并解决问题,从而降低人工运维成本。
扣子罗盘的评测功能由三个核心模块构成:评测集、评估器和实验。
针对个人免费版和进阶版,扣子罗盘为每个扣子账号赠送 10 次免费评测实验额度,开启实验不消耗资源点,额度用尽后将消耗资源点评测。针对不同商业化计划方案的用户,每日赠送的资源点额度有差异,详情请参考扣子罗盘套餐权益说明。
说明
扣子主账号和子账号共用免费评测实验额度。