轨迹-工具调用成功率评估器

更新于: 2026-06-25 18:07:33

评估器信息

分类		详情
基础信息	评估器名称	轨迹-工具成功率
基础信息	评估器类型	黑盒评估器，评估标准的明细不对客展示
效果说明	功能概述	本评估器会统计 Agent 运行轨迹中，所有工具(Tool)调用步骤的成功率，并提供错误调用的工具步骤聚合及错误码分布说明
	评估方式	Code/规则评估器
	评估对象	Agent
	评估目标	工具调用
	应用场景	Agent 通用评测
	评估规则说明	0<=X<=1分，0分代表工具调用全部失败，1分代表工具调用全部成功。具体样例如下：正面案例：工具调用成功率很高(100.00%)，共2个工具步骤反面案例：工具调用成功率较低(75.00%)，共4个工具步骤，需要重点优化，错误的工具步骤有：1次category_insight_report
	评估置信度	100%

参数	参数名称	是否必填	参数说明
输入信息	trajectory	是	Agent 执行轨迹（必须遵循扣子罗盘定义的轨迹数据格式，详情参见轨迹评测介绍）
输出信息	result_str	是	评估分数和具体评估理由

{
    "trajectory": {
        "content_type": "text",
        "json_schema": "{\"type\": \"string\"}",
        "text": "String格式的完整轨迹"
    }
}

{
"score": 1,
    "reasoning":"工具调用成功率很高(100.00%)，共2个工具步骤"
}