本教程以一个扣子中搭建的翻译智能体为例,指导你使用扣子罗盘的评测功能来评估智能体的翻译的正确性。
在本教程中,你将学习使用扣子罗盘的评测功能来评估翻译智能体的表现。该智能体的任务是将用户提供的中文技术内容翻译成英文。
我们的主要目标是确保翻译的准确性,无事实性错误。要完成这个评测,需要按照以下步骤操作:
构建评测集:首先,准备用于评测的测试数据。下表是我们将使用的测试数据。
|
中文 |
参考翻译 |
检测目标 |
|---|---|---|
|
使用docker pull命令从镜像仓库下载最新版本的应用容器。 |
Use the docker pull command to download the latest version of the application container from the image registry. |
术语一致性 + 简洁性 |
|
当HTTP响应状态码为503时,表示服务暂时不可用。 |
An HTTP 503 status code indicates that the service is temporarily unavailable. |
被动语态 + 句式简化 |
|
此配置项用于控制缓存过期时间,默认值为300秒。设置过小可能导致频繁缓存穿透,过大则可能引发内存溢出。 |
This configuration item controls the cache expiration time. The default value is 300 seconds. A value too low may cause cache penetration, while a value too high may lead to memory overflow. |
正确性 + 术语准确性 |
|
警告:修改此参数可能导致系统不稳定,建议先在测试环境验证。 |
Warning: Modifying this parameter may cause system instability. Verify changes in a test environment first. |
正确性 + 简洁性优化 |
|
该方案通过“削峰填谷”策略优化资源利用率。 |
The solution optimizes resource utilization through a “peak shaving and valley filling” strategy. |
正确性 |
|
使用Redis的SETNX命令实现分布式锁时,需注意处理锁过期和羊群效应问题。 |
When using Redis’s SETNX command to implement a distributed lock, it is important to address issues related to lock expiration and the thundering herd problem. |
术语一致性 + 简洁性 |
创建评估器:接下来,创建一个包含准确性检测规则的评估器,用于评估翻译智能体的输出结果。
发起评测实验:将评测数据输入智能体,并使用评估器对智能体的输出结果进行打分。
分析实验结果:最后,根据实验结果判断智能体的翻译准确性,并进行必要的调整和优化。
评测集是用于系统化评测 AI Agent 性能的标准化测试数据集。评测集通常包含输入样本与参考输出,作为衡量 AI Agent 表现的基准。评测集是创建评测任务的第一步。
参考以下步骤,创建评测集。
访问扣子罗盘,然后单击右上角的立即体验。
使用扣子账号登录。
如果你尚未注册扣子账号,参考账号注册注册一个扣子账号并完成登录。
在左侧导航栏顶部,选择一个空间。
在左侧导航栏,选择评测 > 评测集,然后单击 + 新建评测集。
在新建评测集页面,参考以下信息配置评测集的输入数据列和输出列信息,然后单击创建。
|
配置项 |
说明 |
|---|---|
|
名称 |
输入一个评测集名称。 |
|
描述(可选) |
提供一个评测集描述。 |
|
配置列-input |
指定输入样本列配置:
|
|
配置列-reference_output(可选) |
指定数据集中期望输出列配置:
说明 预期输出主要作为参考答案提供给评估器评分使用。开发者可根据选择的评估器是否需要该输入,按需选择是否提供该字段。 |
|
其他列 |
单击 +添加列补充其他信息,供评测对象与评估器执行评估时消费使用。 |
本教程中的评测集的列配置如下图所示。
在评测集详情页面,选择添加数据 > 手动添加来添加测试数据。
扣子罗盘评测集支持手动添加和本地导入两种方式来添加数据。本教程中选择手动添加方式。更多关于评测集的操作说明,参考管理评测集。
说明
在添加数据页面,输入第一组测试数据,然后单击 + 添加数据项添加更多测试数据。最后,单击添加完成数据添加。
添加数据后,单击提交新版本提交评测集。
说明
在创建评测实验时,只能使用已提交的评测集,不支持使用草稿状态的评测集。
提交评测集后,接下来要创建一个评估器,设置评估规则。
参考以下步骤,创建评估器。
在左侧导航栏,选择评测 > 评估器,然后单击 + 新建评估器。
在新建评估器页面,参考以下信息配置评估器。
|
配置 |
说明 |
|---|---|
|
名称 |
输入评估器名称。 |
|
描述 |
提供一个评估器的说明信息。 |
|
模型选择 |
使用豆包模型。 |
|
Prompt |
输入评估器的提示词,指示评估器如何进行评估,可以使用内置的评估 Prompt 模板或二次修改模板后使用。 |
|
+ 添加 User Prompt |
(可选)单击 + 添加 User Prompt 输入你希望强调的评估规则。 |
在完成评估器配置后,单击调试,测试一下评估器效果。
说明
在调试评估器时,会产生 Token 消耗。
在弹出的预览与调试页面,输入一组测试数据,然后单击运行查看评估效果是否符合预期。
以下图中的评估器为例,它对构造的output内容评估完全准确。
在调试后,单击创建完成评估器创建并提交评估器版本。
说明
在创建评测实验时,只能使用已提交的评估器。
在准备好评测集和评估器后,就可以发起实验来测试翻译助手智能体的翻译准确性了。
参考以下步骤,发起实验。
在评估器执行完所有评估任务后,你可以在实验页面查看实验报告。通过实验报告来判断评估对象是否符合预期。
在实验详情页面,你可以查看评估器对每个测试数据的执行结果的评分,以及评分的具体原因。
如果某个测试数据的评估器自动打分不准确,你可以将鼠标悬浮至评分上,然后点击出现的人工校准图标。在弹出的页面中输入修正的分数和原因。
在实验详情页面,单击指标统计查看实验数据报告。
至此,我们已经完成了翻译智能体的正确性评估。从实验报告上来看,翻译准确性还是比较高的,没有出现事实性错误。