> ## Documentation Index
> Fetch the complete documentation index at: https://docs.coze.cn/llms.txt
> Use this file to discover all available pages before exploring further.

表格类型的知识库，默认按行分段，一行就是一个内容片段，不需要再进行分段设置。照片类型的知识库也无需分段，扣子编程支持设置图片的标注信息，用户输入的问题会与设置的标注信息对比，根据相似度匹配最相关的图片给大模型用于内容生成。而对于文本类型的知识库，合理的分段策略能够提高文本检索效率，从而改善用户体验，使用户能够快速获取精准信息。本文主要介绍文本类型知识库的分段策略。
## 什么是知识库分段 {#84ed6424}
知识库分段是将上传至知识库的文本内容，按照一定的规则和逻辑，划分为多个较小的、具有独立意义的文本单元。这些分段后的文本单元，将成为知识库中用于检索和匹配的基本单位。
## 为什么要分段 {#7a2ccedc}
知识库分段可以更有效地召回与用户查询最相关的内容，从而提升回复的准确性。合理的分段对回复的效果有着直接影响。如果分段太大，可能包含太多不相关的信息，从而降低了检索的准确性。相反，分段太小可能会丢失必要的上下文信息，导致生成的响应缺乏连贯性或深度。

* **提高检索效率**：通过分段，将长篇文档拆解为多个短小的段落，使得检索系统能够快速定位到与用户查询最相关的段落，提高检索的速度和效率。
* **增强匹配精准度**：分段后的文本单元更贴近用户查询的语义范围，有助于检索系统更准确地匹配关键词和语义，提升检索结果的相关性和精准度。
* **优化知识表示**：分段有助于将复杂的知识内容拆解成更易于理解和处理的小单元，使得知识库中的知识结构更加清晰，便于后续的知识管理和应用。
* **改善用户体验**：为用户提供更加精准和针对性的答案，提升用户与知识库交互的体验，满足用户快速获取所需信息的需求。

## 分段策略 {#cd6be26d}
扣子编程的文本知识库支持自动分段、按层级结构分段和自定义分段，以下是对这三种分段策略的对比。
<!-- @cols-width: 100,244,257,262 -->
| | | | | \
|**对比项** |**按层级分段** |**自动分段** |**自定义分段** |
|---|---|---|---|
| | | | | \
|分段原理 |根据文档的目录结构、章节划分等层级信息，将内容划分为不同层级的文本单元。 |扣子编程可对上传的内容进行自动分段，支持复杂布局的文件处理，例如： |\
| | | |\
| | |* 可识别段落。 |\
| | |* 可识别页眉/页脚/脚注等非重点内容。 |\
| | |* 支持跨页跨栏的段落合并 |\
| | |* 支持解析表格中的图片信息。 |\
| | |* 支持解析文档中的表格内容（目前，仅支持解析带线框的表格内容）。 |根据用户需求，灵活配置分段标识符、分段最大长度、分段重叠度等参数，同时还能通过设置文本预处理规则，在分段前对文本进行特定处理。 |
| | | | | \
|适用场景 |适用于表示复杂、层次分明的知识体系，例如技术手册、法律条文、标准规范等。这些文档通常具有明确的结构层次，需要按照章节、小节等进行组织和检索。 |适用于结构较为规范的文档，例如新闻文章、学术论文等，这些文档通常使用标准的标点符号进行分隔。 |适用于对分段有特殊需求的场景，如需要根据特定的业务规则或语义关系进行分段，或者处理结构不规则的文本数据。 |
| | | | | \
|导入类型 |仅上传本地文档（包括PDF、MD、DOC、DOCX格式），支持按层级分段。 |本地文档、在线数据、Notion、飞书、自定义的文本知识库都支持自动分段。 |本地文档、在线数据、Notion、飞书、自定义的文本知识库都支持自定义分段。 |
| | | | | \
|优缺点 |* 优点： |\
| |   * **结构清晰**：能够清晰地展示文档的层次结构，便于用户理解和导航。 |\
| |   * **便于检索**：用户可以根据层级关系快速定位到所需的内容，提高检索效率。 |\
| |* 缺点： |\
| |   * **处理复杂度高**：对于结构复杂的文档，提取和处理层级信息的难度较大。 |\
| |   * **灵活性较低**：需要文档具有明确的层级结构，对于结构不规范的文档难以适用。 |* 优点： |\
| | |   * **高效性**：能够快速、自动地处理大量文档，节省人工分段的时间和精力。 |\
| | |   * **一致性**：保持分段标准的一致性，避免了人工分段可能出现的主观差异和不一致性问题。 |\
| | |* 缺点： |\
| | |   * **准确性问题**：可能会出现分段不准确的情况，如将一个完整的语义单元错误地分割成多个段落，或者将多个不关联的句子合并为一个段落，影响后续的检索和匹配效果。 |\
| | |   * **依赖文档质量**：在文档格式不规范、语言表达混乱的情况下，自动分段的效果可能不佳。 |* 优点： |\
| | | |   * **灵活性高**：能够根据不同的业务需求和场景特点，灵活地调整分段参数和规则，实现更精准的分段效果。 |\
| | | |   * **可定制性强**：用户可以根据实际情况定制分段策略，满足特定的业务需求。 |\
| | | |* 缺点： |\
| | | |   * **配置复杂度高**：需要用户对分段参数和规则有深入的理解和掌握，配置过程可能较为复杂。 |\
| | | |   * **维护成本高**：当业务需求变化或文档结构更新时，可能需要频繁调整和维护分段策略，增加了维护成本。 |
| | | | | \
|分段效果 |采用**按层级分段**方式对[什么是扣子](https://www.coze.cn/open/docs/guides/welcome)文档进行分段处理， 结果如下： |\
| |![Image=1830x1167](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/92222105b4664c76a834276aa78608a7~tplv-goo7wpa0wc-image.image) |采用**自动分段**方式对[什么是扣子](https://www.coze.cn/open/docs/guides/welcome)文档进行分段处理，结果如下： |\
| | |![Image=1683x1020](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/fe30730a5a8b4e678a7f34c7cca66b67~tplv-goo7wpa0wc-image.image) |\
| | | |采用**自定义分段**方式对[什么是扣子](https://www.coze.cn/open/docs/guides/welcome)文档进行分段处理，结果如下： |\
| | | |![Image=1825x1201](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/7d1648d4cc08457dabd94617ce641519~tplv-goo7wpa0wc-image.image) |

## 配置分段策略 {#683af7aa}
在**创建设置**页面，即可根据业务需要选择分段策略。
![Image=501x171](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/b50d255fc4554424929fd8110bb2fb8e~tplv-goo7wpa0wc-image.image)

* **自动分段与清洗**：选择该分段策略，会自动利用句号、分号、问号、感叹号等标点符号作为分段依据，将文档分割成一个个独立的句子或段落，无其他配置项。
* **自定义**：选择该分段策略，完成以下配置。
   * 分段标识符：分段标识符是用于识别和划分文本段落的特定字符或字符串。支持的分段标识符包括换行、2个换行、中文句号、中文叹号、英文句号、英文叹号、中文问号、英文问号、自定义分隔符（如"###"）等。例如，在英文文本中，句号通常作为自然语言句子的结束标志，可以作为分段标识符。
   * 分段最大长度：分段最大长度是指每个文本段落允许的最大字符数。设置分段最大长度可以防止段落过长，导致后续处理（如检索、匹配）的效率降低。同时，也能够确保每个段落包含的信息量适中，便于理解和分析。
   * 分段重叠度%：分段重叠度%是指相邻段落之间共享的字符数占分段最大长度的比例。设置分段重叠度可以在一定程度上保留段落之间的上下文信息，避免因分段导致信息的割裂。这对于需要考虑上下文关系的文本处理任务（例如语义理解、上下文推理）尤为重要。
   * 文本预处理规则：文本预处理规则是指在进行分段之前，对原始文本进行的一系列处理操作的规则。通过文本预处理，可以去除文本中的噪声信息、统一文本格式、纠正错误等，从而提高分段的准确性和后续文本处理的效果。支持的文本预处理规则包括：
      * 替换连续的空格、换行符和制表符
      * 删除所有 URL 和电子邮箱地址
* **按层级分段**：选择该分段策略，完成以下配置。
   * 分段层级：分段层级是指在文档结构中，根据内容的重要性和逻辑关系设置为多个层级。例如在一个企业产品手册中，分段层级可以包括产品概述（一级标题）、产品特点（二级标题）、技术参数（三级标题）等。产品概述作为一级标题，其下的“产品特点”和“应用场景”可以是二级标题，进一步细分的“特点一”、“特点二”则是三级标题。设置分段层级为 2 时，系统会将知识库内容按照一级和二级标题进行划分，形成清晰的结构化信息。
      ![Image=368x193](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/743d7ba21bfc4820864ea3575fbbc945~tplv-goo7wpa0wc-image.image)
   * 检索切片保留层级信息：检索切片保留层级信息是指在进行检索时，是否保留文档段落的层级结构信息，以便在检索结果中展示段落之间的层次关系。保留层级信息有助于更好地理解检索结果的上下文和逻辑结构，便于快速定位到所需的具体信息，并把握文档的整体内容布局。默认切片检索不保留层级信息，勾选后切片检索会保留层级信息。
      ![Image=511x163](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/afc4ec737a2c4e358a5cee51c970ac21~tplv-goo7wpa0wc-image.image)
   配置完按层级分段，在预览分段时，还支持以下操作：
      * **拖拽调整层级结构**：通过拖拽操作，可以调整段落或章节之间的层级关系和顺序。例如，将一个二级标题拖拽到另一个一级标题下，使其成为新的子章节，或者调整两个同级标题的顺序。
         ![Image=513x254](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/a63ecaf01b2641049185349f596db09a~tplv-goo7wpa0wc-image.image)
      * **按照层级合并为切片**：右击层级标题，选择**合并为一个分段**，将选定层级及其子层级的所有内容合并为一个分段。例如，选择一个二级标题，系统会将其下的所有三级标题和对应内容合并为一个完整的分段。
         ![Image=511x253](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/c83077ab8e834b82a7949d3aaa65bfc7~tplv-goo7wpa0wc-image.image)
      * **删除切片**：右击层级标题或分段内容，选择**删除**，从知识库中移除选定的分段及其所有内容。例如，如果某个章节不再需要，可以直接删除对应的分段，包括其下的所有子层级。
         ![Image=2044x1014](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/d0f8bfd04f9f4277b3c61927da242f11~tplv-goo7wpa0wc-image.image)


