助手
扣子 AI 帮助与支持
你好,我是 扣子 文档问答助手 🎉 你在阅读当前文档的过程中,无论对文档概念的解释,还是文档内容方面的疑问,都可以随时向我提问,我会全力为你解答
推荐问题
如何快速了解这个空间的核心内容?
有哪些近期更新的重点文档?
我应该从哪些文档开始阅读?
文档反馈

知识库分段

更新于: 2026-06-24 15:44:40

表格类型的知识库,默认按行分段,一行就是一个内容片段,不需要再进行分段设置。照片类型的知识库也无需分段,扣子编程支持设置图片的标注信息,用户输入的问题会与设置的标注信息对比,根据相似度匹配最相关的图片给大模型用于内容生成。而对于文本类型的知识库,合理的分段策略能够提高文本检索效率,从而改善用户体验,使用户能够快速获取精准信息。本文主要介绍文本类型知识库的分段策略。

什么是知识库分段

知识库分段是将上传至知识库的文本内容,按照一定的规则和逻辑,划分为多个较小的、具有独立意义的文本单元。这些分段后的文本单元,将成为知识库中用于检索和匹配的基本单位。

为什么要分段

知识库分段可以更有效地召回与用户查询最相关的内容,从而提升回复的准确性。合理的分段对回复的效果有着直接影响。如果分段太大,可能包含太多不相关的信息,从而降低了检索的准确性。相反,分段太小可能会丢失必要的上下文信息,导致生成的响应缺乏连贯性或深度。

  • 提高检索效率:通过分段,将长篇文档拆解为多个短小的段落,使得检索系统能够快速定位到与用户查询最相关的段落,提高检索的速度和效率。
  • 增强匹配精准度:分段后的文本单元更贴近用户查询的语义范围,有助于检索系统更准确地匹配关键词和语义,提升检索结果的相关性和精准度。
  • 优化知识表示:分段有助于将复杂的知识内容拆解成更易于理解和处理的小单元,使得知识库中的知识结构更加清晰,便于后续的知识管理和应用。
  • 改善用户体验:为用户提供更加精准和针对性的答案,提升用户与知识库交互的体验,满足用户快速获取所需信息的需求。

分段策略

扣子编程的文本知识库支持自动分段、按层级结构分段和自定义分段,以下是对这三种分段策略的对比。

对比项

按层级分段

自动分段

自定义分段

分段原理

根据文档的目录结构、章节划分等层级信息,将内容划分为不同层级的文本单元。

扣子编程可对上传的内容进行自动分段,支持复杂布局的文件处理,例如:

  • 可识别段落。
  • 可识别页眉/页脚/脚注等非重点内容。
  • 支持跨页跨栏的段落合并
  • 支持解析表格中的图片信息。
  • 支持解析文档中的表格内容(目前,仅支持解析带线框的表格内容)。

根据用户需求,灵活配置分段标识符、分段最大长度、分段重叠度等参数,同时还能通过设置文本预处理规则,在分段前对文本进行特定处理。

适用场景

适用于表示复杂、层次分明的知识体系,例如技术手册、法律条文、标准规范等。这些文档通常具有明确的结构层次,需要按照章节、小节等进行组织和检索。

适用于结构较为规范的文档,例如新闻文章、学术论文等,这些文档通常使用标准的标点符号进行分隔。

适用于对分段有特殊需求的场景,如需要根据特定的业务规则或语义关系进行分段,或者处理结构不规则的文本数据。

导入类型

仅上传本地文档(包括PDF、MD、DOC、DOCX格式),支持按层级分段。

本地文档、在线数据、Notion、飞书、自定义的文本知识库都支持自动分段。

本地文档、在线数据、Notion、飞书、自定义的文本知识库都支持自定义分段。

优缺点

  • 优点:
    • 结构清晰:能够清晰地展示文档的层次结构,便于用户理解和导航。
    • 便于检索:用户可以根据层级关系快速定位到所需的内容,提高检索效率。
  • 缺点:
    • 处理复杂度高:对于结构复杂的文档,提取和处理层级信息的难度较大。
    • 灵活性较低:需要文档具有明确的层级结构,对于结构不规范的文档难以适用。
  • 优点:
    • 高效性:能够快速、自动地处理大量文档,节省人工分段的时间和精力。
    • 一致性:保持分段标准的一致性,避免了人工分段可能出现的主观差异和不一致性问题。
  • 缺点:
    • 准确性问题:可能会出现分段不准确的情况,如将一个完整的语义单元错误地分割成多个段落,或者将多个不关联的句子合并为一个段落,影响后续的检索和匹配效果。
    • 依赖文档质量:在文档格式不规范、语言表达混乱的情况下,自动分段的效果可能不佳。
  • 优点:
    • 灵活性高:能够根据不同的业务需求和场景特点,灵活地调整分段参数和规则,实现更精准的分段效果。
    • 可定制性强:用户可以根据实际情况定制分段策略,满足特定的业务需求。
  • 缺点:
    • 配置复杂度高:需要用户对分段参数和规则有深入的理解和掌握,配置过程可能较为复杂。
    • 维护成本高:当业务需求变化或文档结构更新时,可能需要频繁调整和维护分段策略,增加了维护成本。

分段效果

采用按层级分段方式对什么是扣子文档进行分段处理, 结果如下:
Image

采用自动分段方式对什么是扣子文档进行分段处理,结果如下:
Image

采用自定义分段方式对什么是扣子文档进行分段处理,结果如下:
Image

配置分段策略

创建设置页面,即可根据业务需要选择分段策略。
Image

  • 自动分段与清洗:选择该分段策略,会自动利用句号、分号、问号、感叹号等标点符号作为分段依据,将文档分割成一个个独立的句子或段落,无其他配置项。
  • 自定义:选择该分段策略,完成以下配置。
    • 分段标识符:分段标识符是用于识别和划分文本段落的特定字符或字符串。支持的分段标识符包括换行、2个换行、中文句号、中文叹号、英文句号、英文叹号、中文问号、英文问号、自定义分隔符(如"###")等。例如,在英文文本中,句号通常作为自然语言句子的结束标志,可以作为分段标识符。
    • 分段最大长度:分段最大长度是指每个文本段落允许的最大字符数。设置分段最大长度可以防止段落过长,导致后续处理(如检索、匹配)的效率降低。同时,也能够确保每个段落包含的信息量适中,便于理解和分析。
    • 分段重叠度%:分段重叠度%是指相邻段落之间共享的字符数占分段最大长度的比例。设置分段重叠度可以在一定程度上保留段落之间的上下文信息,避免因分段导致信息的割裂。这对于需要考虑上下文关系的文本处理任务(例如语义理解、上下文推理)尤为重要。
    • 文本预处理规则:文本预处理规则是指在进行分段之前,对原始文本进行的一系列处理操作的规则。通过文本预处理,可以去除文本中的噪声信息、统一文本格式、纠正错误等,从而提高分段的准确性和后续文本处理的效果。支持的文本预处理规则包括:
      • 替换连续的空格、换行符和制表符
      • 删除所有 URL 和电子邮箱地址
  • 按层级分段:选择该分段策略,完成以下配置。
    • 分段层级:分段层级是指在文档结构中,根据内容的重要性和逻辑关系设置为多个层级。例如在一个企业产品手册中,分段层级可以包括产品概述(一级标题)、产品特点(二级标题)、技术参数(三级标题)等。产品概述作为一级标题,其下的“产品特点”和“应用场景”可以是二级标题,进一步细分的“特点一”、“特点二”则是三级标题。设置分段层级为 2 时,系统会将知识库内容按照一级和二级标题进行划分,形成清晰的结构化信息。
      Image
    • 检索切片保留层级信息:检索切片保留层级信息是指在进行检索时,是否保留文档段落的层级结构信息,以便在检索结果中展示段落之间的层次关系。保留层级信息有助于更好地理解检索结果的上下文和逻辑结构,便于快速定位到所需的具体信息,并把握文档的整体内容布局。默认切片检索不保留层级信息,勾选后切片检索会保留层级信息。
      Image
      配置完按层级分段,在预览分段时,还支持以下操作:
      • 拖拽调整层级结构:通过拖拽操作,可以调整段落或章节之间的层级关系和顺序。例如,将一个二级标题拖拽到另一个一级标题下,使其成为新的子章节,或者调整两个同级标题的顺序。
        Image
      • 按照层级合并为切片:右击层级标题,选择合并为一个分段,将选定层级及其子层级的所有内容合并为一个分段。例如,选择一个二级标题,系统会将其下的所有三级标题和对应内容合并为一个完整的分段。
        Image
      • 删除切片:右击层级标题或分段内容,选择删除,从知识库中移除选定的分段及其所有内容。例如,如果某个章节不再需要,可以直接删除对应的分段,包括其下的所有子层级。
        Image