助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

PagePop:借助扣子罗盘,建立智能评测新范式

更新于: 2026-06-24 21:03:16

PagePop 是一款专注于宣传、展示和汇报场景的智能排版工具。在其业务快速迭代过程中,面临评测体系搭建难的挑战。扣子罗盘为其提供了针对性解决方案:通过高频自动评测、多维度评估器、人工校准、数据回流及 BadCase 闭环优化,助力PagePop突破瓶颈,实现业务的高效优化与品质提升。

客户介绍

PagePop 是一款专注于宣传、展示和汇报场景设计的智能排版工具,支持图文素材上传,仅需 3 秒即可生成精美排版,助力用户高效产出专业且视觉出众的内容。无论是微信分享、小红书营销等社交场景,还是工作汇报、活动总结等职场场景,PagePop 都能满足多样化宣传需求。
随着基座模型能力的提升和产品功能的不断扩展,PagePop 需实现快速迭代。然而,相较于传统软件工程,基于 Agent 的迭代存在可控性较差的挑战。为确保每次产品更新后,Agent 生成内容的质量均优于之前版本,保障用户体验持续提升,PagePop 团队专门构建了针对 Agent 的测评数据集,并定期进行质量评估,确保输出稳定且高质量。

业务挑战

在搭建测评体系的过程中,PagePop 团队面临多重挑战:

  • 基础工程成本高:搭建完整的评测流程需从零开始构建评测集、评测对象、评估器、实验调度、可量化的实验结论等基础容器,成本巨大。
  • 实验质量不稳定:采用 Prompt+模型构建评测工具方式,因模型评分准确性不足、评测粒度较粗,影响最终输出结果的可靠性,难以支撑精准决策。
  • 人员不足:人力资源有限,导致评测无法高频开展,难以与业务迭代频率保持同步。
  • 评测集覆盖不足:现有评测集覆盖主要场景较为单一,缺乏多样性和丰富度,难以全面反映真实的业务需求。

解决方案

针对上述挑战,扣子罗盘提供了全方位的智能评测解决方案,实现从问题识别到优化闭环的全流程升级。

  • 构建多维度评估器
    通过构建多维度评估器, 打造更加精细的评估能力。
    • 场景评估器:基于上下文语境,评估回复的内容与对应场景是否匹配。
    • 结构评估器:判断各部分内容的组织架构与逻辑关系的准确性。
    • 语言评估器:检查内容表达风格与行业特性的贴合度。
      Image
  • 高频、精细化的自动评测
    通过扣子罗盘的自动评测功能, PagePop 可以在每次业务迭代后即刻发起评测,即刻掌握迭代后的 Agent 质量。目前已稳定实现每周 1-2 次评测, 支持在 Agent 迭代后随时启动评测。
    Image
  • 人工校准提升可靠性
    评测完成后的实验报告支持人工校准,有效解决 LLM as Judge 可能出现的幻觉问题,提升评测结果可靠性。
    Image
  • 数据回流丰富评测集
    通过数据回流,将评审结果直接沉淀为评测集,且支持字段修改优化,既能覆盖主流场景,又能延伸至长尾需求,大幅提升评测集的多样性与丰富度。
    Image
  • BadCase 驱动闭环优化
    基于 Trace 自动评测功能,可第一时间识别 BadCase,打造闭环的 AgentDevOps 流程 “BadCase识别 → Agent优化 → 评测 → 上线观测” ,驱动业务的高效优化,显著提升 Agent 优化效率。
    Image

客户收益

通过扣子罗盘的解决方案,PagePop 实现了多维度突破。

  • 释放基础工程压力:无需投入大量精力搭建评测基础工程,业务可聚焦于核心功能优化与用户体验提升。
  • 突破人力限制:高频自动评测无需依赖大量人力,支持随时发起,与业务迭代节奏同步。
  • 大幅提升评测效率:单次评测效率提升超一倍,加速产品迭代周期。
  • 优化评测集质量:覆盖场景更全面,多样性与丰富度显著提升。
  • 增强实验可靠性:通过人工校准与多维度评估,评测结果的可信度大幅提升。

客户原声

扣子罗盘帮我们做了很多 AgentOps 工程相关的工作,譬如流程打通,评测的结果量化,我们不需要再单独去做这些工作,使得我们可以更专注于业务本身。
此外,评估器开发并且调试稳定后,可以给其他数据部门直接复用,避免内部重复造轮子。这些都是非常规范的、可复用的工具,对我们的提效是很有帮助的。

--PagePop 产研团队
  • 数据来源:本页面所展示的客户案例相关数据均由客户方提供。