本文档介绍在扣子罗盘中评测扣子智能体的操作步骤。
当你在扣子编程搭建智能体(如翻译助手、客服机器人、代码生成工具等)后,需要系统性评估其功能表现(如翻译准确性、回答相关性、代码正确性等)以验证是否符合预期时,可通过扣子罗盘提供的评测功能,对智能体进行标准化、量化的质量检测。
例如,你开发了一个翻译助手智能体,希望验证其翻译结果的准确性,本文将演示如何通过评测集、LLM 评估器和实验来对该智能体进行评测。
访问扣子罗盘,在左侧导航栏顶部,选择目标工作空间。
在左侧导航栏,选择评测 > 评测集,单击右上角的 + 新建评测集。
在新建评测集页面,输入评测集的名称,配置评测集的输入数据列和输出列信息,然后单击创建。
添加测试数据。
扣子罗盘支持本地上传和手动导入两种方式来添加测试数据。本文以本地上传方式为例,将已准备的评测数据批量上传至评测集。
在评测集详情页面,选择添加数据 > 本地导入,导入准备工作中准备好的测试数据,并配置列映射关系, 单击导入。
单击提交新版本。
说明
在调试评估器时,会产生 Token 消耗。
说明
在创建评测实验时,只能使用已提交的评估器。
在准备好评测集和评估器后,就可以发起实验来测试翻译助手智能体的翻译准确性了。
在评估器执行完所有评估任务后,你可以在实验页面查看实验报告。通过实验报告来判断评估对象是否符合预期。
在数据明细页面,你可以查看评估器对每个测试数据的执行结果的评分,以及评分的具体原因。
如果某个测试数据的评估器自动打分不准确,你可以将鼠标悬浮至评分上,然后点击出现的人工校准图标。在弹出的页面中输入修正的分数和原因。
在实验详情页面,单击指标统计页签查看实验数据报告。