PagePop 是一款专注于宣传、展示和汇报场景设计的智能排版工具，支持图文素材上传，仅需 3 秒即可生成精美排版，助力用户高效产出专业且视觉出众的内容。无论是微信分享、小红书营销等社交场景，还是工作汇报、活动总结等职场场景，PagePop 都能满足多样化宣传需求。
随着基座模型能力的提升和产品功能的不断扩展，PagePop 需实现快速迭代。然而，相较于传统软件工程，基于 Agent 的迭代存在可控性较差的挑战。为确保每次产品更新后，Agent 生成内容的质量均优于之前版本，保障用户体验持续提升，PagePop 团队专门构建了针对 Agent 的测评数据集，并定期进行质量评估，确保输出稳定且高质量。

业务挑战

在搭建测评体系的过程中，PagePop 团队面临多重挑战：

基础工程成本高：搭建完整的评测流程需从零开始构建评测集、评测对象、评估器、实验调度、可量化的实验结论等基础容器，成本巨大。
实验质量不稳定：采用 Prompt+模型构建评测工具方式，因模型评分准确性不足、评测粒度较粗，影响最终输出结果的可靠性，难以支撑精准决策。
人员不足：人力资源有限，导致评测无法高频开展，难以与业务迭代频率保持同步。
评测集覆盖不足：现有评测集覆盖主要场景较为单一，缺乏多样性和丰富度，难以全面反映真实的业务需求。

解决方案

针对上述挑战，扣子罗盘提供了全方位的智能评测解决方案，实现从问题识别到优化闭环的全流程升级。

构建多维度评估器
通过构建多维度评估器，打造更加精细的评估能力。
- 场景评估器：基于上下文语境，评估回复的内容与对应场景是否匹配。
- 结构评估器：判断各部分内容的组织架构与逻辑关系的准确性。
- 语言评估器：检查内容表达风格与行业特性的贴合度。
高频、精细化的自动评测
通过扣子罗盘的自动评测功能， PagePop 可以在每次业务迭代后即刻发起评测，即刻掌握迭代后的 Agent 质量。目前已稳定实现每周 1-2 次评测，支持在 Agent 迭代后随时启动评测。
人工校准提升可靠性
评测完成后的实验报告支持人工校准，有效解决 LLM as Judge 可能出现的幻觉问题，提升评测结果可靠性。
数据回流丰富评测集
通过数据回流，将评审结果直接沉淀为评测集，且支持字段修改优化，既能覆盖主流场景，又能延伸至长尾需求，大幅提升评测集的多样性与丰富度。
BadCase 驱动闭环优化
基于 Trace 自动评测功能，可第一时间识别 BadCase，打造闭环的 AgentDevOps 流程 “BadCase识别 → Agent优化 → 评测 → 上线观测” ，驱动业务的高效优化，显著提升 Agent 优化效率。

客户收益

通过扣子罗盘的解决方案，PagePop 实现了多维度突破。

释放基础工程压力：无需投入大量精力搭建评测基础工程，业务可聚焦于核心功能优化与用户体验提升。
突破人力限制：高频自动评测无需依赖大量人力，支持随时发起，与业务迭代节奏同步。
大幅提升评测效率：单次评测效率提升超一倍，加速产品迭代周期。
优化评测集质量：覆盖场景更全面，多样性与丰富度显著提升。
增强实验可靠性：通过人工校准与多维度评估，评测结果的可信度大幅提升。

客户原声

扣子罗盘帮我们做了很多 AgentOps 工程相关的工作，譬如流程打通，评测的结果量化，我们不需要再单独去做这些工作，使得我们可以更专注于业务本身。
此外，评估器开发并且调试稳定后，可以给其他数据部门直接复用，避免内部重复造轮子。这些都是非常规范的、可复用的工具，对我们的提效是很有帮助的。

--PagePop 产研团队

数据来源：本页面所展示的客户案例相关数据均由客户方提供。

七匹狼：基于扣子重塑导购培训，打造销售尖兵