|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
轨迹-工具重复调用率 |
|
评估器类型 |
黑盒评估器,评估标准的明细不对客展示 |
|
|
效果说明 |
功能概述 |
本评估器会评测 Agent 运行轨迹中,工具的重复调用情况,并计算得出有重复调用的工具、重复次数。 |
|
评估方式 |
Code/规则评估器 |
|
|
评估对象 |
Agent |
|
|
评估目标 |
工具调用 |
|
|
应用场景 |
Agent 通用评测 |
|
|
评估规则说明 |
0<X<=1分,越靠近0分越代表工具重复调用严重,1分代表工具没有重复调用的情况。具体样例如下: |
|
|
评估置信度 |
100% |
|
|
参数 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入信息 |
trajectory |
是 |
Agent 执行轨迹(必须遵循扣子罗盘定义的轨迹数据格式,详情参见 轨迹评测介绍 ) |
|
输出信息 |
result_str |
是 |
评估分数和具体评估理由 |
{
"trajectory": {
"content_type": "text",
"json_schema": "{\"type\": \"string\"}",
"text": "String格式的完整轨迹"
}
}
{
"score" : 0.8 ,
"reasoning" : "除了每个工具的第一次调用以外,重复调用比率为 20%(重复调用次数 2 / 总调用次数 10),重复的工具:retrieve_by_identifier"
}