你可以通过查看模型的性能指标和并发指标,评估模型的效率和效果。同时,你还可以通过查看用量记录,跟踪模型的使用情况,对于资源规划和成本管理至关重要。
通过模型管理功能,你能够全面监控和评估模型的关键性能指标,包括模型的首 Token 延时、非首 Token 延时和成功率。
说明
不同的模型,性能指标的统计方式存在差异,具体差异如下:
| 指标 | 说明 | 统计频率 |
|---|---|---|
|
首 Token 延时 |
记录用户输入 Prompt 到模型输出第一个 token 所需时间,单位为毫秒。 首 Token 延时越低,代表模型的响应速度越快,用户的体验越好。 |
每 10 分钟统计一次。 |
| 非首 Token 延时 | 记录模型完成首 token 输出后,后续输出每个 token 所需的平均时长,不包括首 token 输出,单位为毫秒。 | 每 10 分钟统计一次。 |
| 成功率 | 记录模型调用成功次数占总调用次数的比例。 | 每 10 分钟统计一次。 |
通过综合考量这些性能指标,你可以对模型的整体表现有一个清晰的认识,并据此进行优化和调整。
参考以下操作,查看模型的性能指标。
你可以通过用量记录看板追踪模型的用量,包括当前空间下模型每天处理的 tokens 数量以及当前模型在不同智能体、工作流中的具体用量,为资源管理与成本优化提供数据支撑。
| 图表名称 | 说明 | 应用场景 |
|---|---|---|
|
用量统计 |
系统会分别统计每天智能体输入和输出的 tokens 数量以及工作流输入和输出的 tokens 数量,并将这些数据汇总,得到当天 tokens 总量并展示。 用量统计图表支持展示最近 7 天的用量记录。 说明 当天的用量记录可能存在延时,仅供参考。企业版(标准版、旗舰版)的模型用量可查看方舟用量统计。 |
|
|
用量详情 |
用量详情图表展示了指定月份内,该模型在当前工作空间下的不同智能体、工作流中的具体用量,包括输入 tokens、输出 tokens、消耗 tokens。同时,支持按照输入 tokens、输出 tokens、消耗 tokens 维度进行排序。 |
|
参考以下操作,查看模型的用量记录。
通过并发监控看板,你可以查看模型的 RPM 限额和 TPM 限额,以及模型实际运行的 RPM、TPM 数据。这些数据可帮助你了解模型运行状态,作为未来资源规划的依据。
| 指标 | 说明 |
|---|---|
|
RPM |
RPM 表示模型每分钟能处理的请求次数,是衡量模型的响应能力和处理速度的重要指标。 RPM 图表包含当前账号所有空间下使用该模型的请求,你可以通过 RPM 图表查看分钟级、日级的模型 RPM 变化趋势。 |
|
TPM |
TPM 表示模型每分钟消耗的 Tokens 数量,是衡量模型处理能力的重要指标。 TPM 图表包含当前账号所有空间下使用该模型的请求,你可以通过 TPM 图表查看分钟级及天级的模型 TPM 变化趋势。 |
参考以下操作,查看模型的并发监控指标。
当你使用的模型即将下架时,可以采用以下两种方式为低代码项目替换模型,以确保服务的连续性。
建议结合 tokens 消耗数据排序,优先替换高频高消耗智能体或工作流中的模型。
说明
本步骤仅适用于低代码智能体或工作流,且仅限其创建者可以替换模型。
当某个模型即将停运时,工作空间的所有者或管理员可以快速定位当前工作空间下所有使用该模型的低代码项目,并批量为这些项目的线上版本切换模型。模型停运 7 天内,仍支持批量切换模型。
说明