> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

PagePop 是一款专注于宣传、展示和汇报场景的智能排版工具。在其业务快速迭代过程中，面临评测体系搭建难的挑战。扣子罗盘为其提供了针对性解决方案：通过高频自动评测、多维度评估器、人工校准、数据回流及 BadCase 闭环优化，助力PagePop突破瓶颈，实现业务的高效优化与品质提升。
## 客户介绍 {#1981e132}
PagePop 是一款专注于宣传、展示和汇报场景设计的智能排版工具，支持图文素材上传，仅需 3 秒即可生成精美排版，助力用户高效产出专业且视觉出众的内容。无论是微信分享、小红书营销等社交场景，还是工作汇报、活动总结等职场场景，PagePop 都能满足多样化宣传需求。
随着基座模型能力的提升和产品功能的不断扩展，PagePop 需实现快速迭代。然而，相较于传统软件工程，基于 Agent 的迭代存在可控性较差的挑战。为确保每次产品更新后，Agent 生成内容的质量均优于之前版本，保障用户体验持续提升，PagePop 团队专门构建了针对 Agent 的测评数据集，并定期进行质量评估，确保输出稳定且高质量。
## 业务挑战  {#08a66700}
在搭建测评体系的过程中，PagePop 团队面临多重挑战：

* **基础工程成本高**：搭建完整的评测流程需从零开始构建评测集、评测对象、评估器、实验调度、可量化的实验结论等基础容器，成本巨大。
* **实验质量不稳定**：采用 Prompt+模型构建评测工具方式，因模型评分准确性不足、评测粒度较粗，影响最终输出结果的可靠性，难以支撑精准决策。
* **人员不足**：人力资源有限，导致评测无法高频开展，难以与业务迭代频率保持同步。
* **评测集覆盖不足**：现有评测集覆盖主要场景较为单一，缺乏多样性和丰富度，难以全面反映真实的业务需求。

## 解决方案  {#7e0ea981}
针对上述挑战，扣子罗盘提供了全方位的智能评测解决方案，实现从问题识别到优化闭环的全流程升级。

* **构建多维度评估器**
   通过构建多维度评估器， 打造更加精细的评估能力。
   * 场景评估器：基于上下文语境，评估回复的内容与对应场景是否匹配。
   * 结构评估器：判断各部分内容的组织架构与逻辑关系的准确性。
   * 语言评估器：检查内容表达风格与行业特性的贴合度。
   ![Image=643x125](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/313c9e3aac8144b49cb7132ec03cfbd7~tplv-goo7wpa0wc-image.image)
* **高频、精细化的自动评测**
   通过扣子罗盘的自动评测功能， PagePop 可以在每次业务迭代后即刻发起评测，即刻掌握迭代后的 Agent 质量。目前已稳定实现每周 1-2 次评测， 支持在 Agent 迭代后随时启动评测。
   ![Image=636x308](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/13a8859cf2f14253ae19f2e37240f228~tplv-goo7wpa0wc-image.image)
* **人工校准提升可靠性**
   评测完成后的实验报告支持人工校准，有效解决 LLM as Judge 可能出现的幻觉问题，提升评测结果可靠性。
   ![Image=651x192](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/d2aecd9eb01043849a9e5dd32cd375aa~tplv-goo7wpa0wc-image.image)
* **数据回流丰富评测集**
   通过数据回流，将评审结果直接沉淀为评测集，且支持字段修改优化，既能覆盖主流场景，又能延伸至长尾需求，大幅提升评测集的多样性与丰富度。
   ![Image=650x312](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/6cd1c15d94b246b1acc881e42710ffe8~tplv-goo7wpa0wc-image.image)
* **BadCase 驱动闭环优化**
   基于 Trace 自动评测功能，可第一时间识别 BadCase，打造闭环的 AgentDevOps 流程 “BadCase识别 → Agent优化 → 评测 → 上线观测” ，驱动业务的高效优化，显著提升 Agent 优化效率。
   ![Image=653x247](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/53932737da9b479ba31e9df8072485d7~tplv-goo7wpa0wc-image.image)

## 客户收益 {#273a99a3}
通过扣子罗盘的解决方案，PagePop 实现了多维度突破。

* **释放基础工程压力**：无需投入大量精力搭建评测基础工程，业务可聚焦于核心功能优化与用户体验提升。
* **突破人力限制**：高频自动评测无需依赖大量人力，支持随时发起，与业务迭代节奏同步。
* **大幅提升评测效率**：单次评测效率提升超一倍，加速产品迭代周期。
* **优化评测集质量**：覆盖场景更全面，多样性与丰富度显著提升。
* **增强实验可靠性**：通过人工校准与多维度评估，评测结果的可信度大幅提升。

## 客户原声 {#ae3b6758}
扣子罗盘帮我们做了很多 AgentOps 工程相关的工作，譬如流程打通，评测的结果量化，我们不需要再单独去做这些工作，使得我们可以更专注于业务本身。
此外，评估器开发并且调试稳定后，可以给其他数据部门直接复用，避免内部重复造轮子。这些都是非常规范的、可复用的工具，对我们的提效是很有帮助的。
<div style="text-align: right">--PagePop 产研团队</div>

> * 数据来源：本页面所展示的客户案例相关数据均由客户方提供。
