|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
轨迹-工具成功率 |
|
评估器类型 |
黑盒评估器,评估标准的明细不对客展示 |
|
|
效果说明 |
功能概述 |
本评估器会统计 Agent 运行轨迹中,所有工具(Tool)调用步骤的成功率,并提供错误调用的工具步骤聚合及错误码分布说明 |
|
评估方式 |
Code/规则评估器 |
|
|
评估对象 |
Agent |
|
|
评估目标 |
工具调用 |
|
|
应用场景 |
Agent 通用评测 |
|
|
评估规则说明 |
0<=X<=1分,0分代表工具调用全部失败,1分代表工具调用全部成功。具体样例如下: |
|
|
评估置信度 |
100% |
|
|
参数 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入信息 |
trajectory |
是 |
Agent 执行轨迹(必须遵循扣子罗盘定义的轨迹数据格式,详情参见 轨迹评测介绍 ) |
|
输出信息 |
result_str |
是 |
评估分数和具体评估理由 |
{
"trajectory": {
"content_type": "text",
"json_schema": "{\"type\": \"string\"}",
"text": "String格式的完整轨迹"
}
}
{
"score": 1,
"reasoning":"工具调用成功率很高(100.00%),共2个工具步骤"
}