评测/评估器/预置评估器
预置评估器
更新于: 2026-06-24 15:45:09
扣子罗盘内置了多种评估器 Prompt 模板,开发者可以在评测实验中直接使用这些模板,也可以基于这些预置评估器二次开发,打造符合自己业务场景的自建评估器。本文档介绍预置评估器的概念与使用方式。
为了便于开发者快速创建各种评测场景的实验,扣子罗盘提供了一系列的预置评估器,适用于文本、图片、音视频等多种评估对象,覆盖了安全风控、AI coding 等多种业务场景。
你可以在扣子罗盘的评估器 > 预置评估器页面中查看预置评估器列表,你还可以通过评估器名称、类型、评估对象等维度来快速查找和筛选评估器。
在评测实验中使用预置评估器之前,你可以先简单调试预置评估器,测试其效果是否符合业务要求。
对于 Agent 任务完成度等常见的典型评测场景,你可以直接在评测实验中使用扣子罗盘提供的预置评估器,而无需手动创建评估器、编写 Prompt 作为评估标准。
创建评估实验时,选择基础信息、评测集和评测对象之后,你可以在评估器页面中选择预置评估器来开展评估实验。详细操作步骤可参考创建实验。