资源/知识库/知识库分段
更新于: 2026-06-24 15:44:40
表格类型的知识库,默认按行分段,一行就是一个内容片段,不需要再进行分段设置。照片类型的知识库也无需分段,扣子编程支持设置图片的标注信息,用户输入的问题会与设置的标注信息对比,根据相似度匹配最相关的图片给大模型用于内容生成。而对于文本类型的知识库,合理的分段策略能够提高文本检索效率,从而改善用户体验,使用户能够快速获取精准信息。本文主要介绍文本类型知识库的分段策略。
什么是知识库分段
知识库分段是将上传至知识库的文本内容,按照一定的规则和逻辑,划分为多个较小的、具有独立意义的文本单元。这些分段后的文本单元,将成为知识库中用于检索和匹配的基本单位。
为什么要分段
知识库分段可以更有效地召回与用户查询最相关的内容,从而提升回复的准确性。合理的分段对回复的效果有着直接影响。如果分段太大,可能包含太多不相关的信息,从而降低了检索的准确性。相反,分段太小可能会丢失必要的上下文信息,导致生成的响应缺乏连贯性或深度。
- 提高检索效率:通过分段,将长篇文档拆解为多个短小的段落,使得检索系统能够快速定位到与用户查询最相关的段落,提高检索的速度和效率。
- 增强匹配精准度:分段后的文本单元更贴近用户查询的语义范围,有助于检索系统更准确地匹配关键词和语义,提升检索结果的相关性和精准度。
- 优化知识表示:分段有助于将复杂的知识内容拆解成更易于理解和处理的小单元,使得知识库中的知识结构更加清晰,便于后续的知识管理和应用。
- 改善用户体验:为用户提供更加精准和针对性的答案,提升用户与知识库交互的体验,满足用户快速获取所需信息的需求。
分段策略
扣子编程的文本知识库支持自动分段、按层级结构分段和自定义分段,以下是对这三种分段策略的对比。
|
对比项
|
按层级分段
|
自动分段
|
自定义分段
|
|
分段原理
|
根据文档的目录结构、章节划分等层级信息,将内容划分为不同层级的文本单元。
|
扣子编程可对上传的内容进行自动分段,支持复杂布局的文件处理,例如:
- 可识别段落。
- 可识别页眉/页脚/脚注等非重点内容。
- 支持跨页跨栏的段落合并
- 支持解析表格中的图片信息。
- 支持解析文档中的表格内容(目前,仅支持解析带线框的表格内容)。
|
根据用户需求,灵活配置分段标识符、分段最大长度、分段重叠度等参数,同时还能通过设置文本预处理规则,在分段前对文本进行特定处理。
|
|
适用场景
|
适用于表示复杂、层次分明的知识体系,例如技术手册、法律条文、标准规范等。这些文档通常具有明确的结构层次,需要按照章节、小节等进行组织和检索。
|
适用于结构较为规范的文档,例如新闻文章、学术论文等,这些文档通常使用标准的标点符号进行分隔。
|
适用于对分段有特殊需求的场景,如需要根据特定的业务规则或语义关系进行分段,或者处理结构不规则的文本数据。
|
|
导入类型
|
仅上传本地文档(包括PDF、MD、DOC、DOCX格式),支持按层级分段。
|
本地文档、在线数据、Notion、飞书、自定义的文本知识库都支持自动分段。
|
本地文档、在线数据、Notion、飞书、自定义的文本知识库都支持自定义分段。
|
|
优缺点
|
- 优点:
- 结构清晰:能够清晰地展示文档的层次结构,便于用户理解和导航。
- 便于检索:用户可以根据层级关系快速定位到所需的内容,提高检索效率。
- 缺点:
- 处理复杂度高:对于结构复杂的文档,提取和处理层级信息的难度较大。
- 灵活性较低:需要文档具有明确的层级结构,对于结构不规范的文档难以适用。
|
- 优点:
- 高效性:能够快速、自动地处理大量文档,节省人工分段的时间和精力。
- 一致性:保持分段标准的一致性,避免了人工分段可能出现的主观差异和不一致性问题。
- 缺点:
- 准确性问题:可能会出现分段不准确的情况,如将一个完整的语义单元错误地分割成多个段落,或者将多个不关联的句子合并为一个段落,影响后续的检索和匹配效果。
- 依赖文档质量:在文档格式不规范、语言表达混乱的情况下,自动分段的效果可能不佳。
|
- 优点:
- 灵活性高:能够根据不同的业务需求和场景特点,灵活地调整分段参数和规则,实现更精准的分段效果。
- 可定制性强:用户可以根据实际情况定制分段策略,满足特定的业务需求。
- 缺点:
- 配置复杂度高:需要用户对分段参数和规则有深入的理解和掌握,配置过程可能较为复杂。
- 维护成本高:当业务需求变化或文档结构更新时,可能需要频繁调整和维护分段策略,增加了维护成本。
|
|
分段效果
|
采用按层级分段方式对什么是扣子文档进行分段处理, 结果如下:

|
采用自动分段方式对什么是扣子文档进行分段处理,结果如下:

|
采用自定义分段方式对什么是扣子文档进行分段处理,结果如下:

|
配置分段策略
在创建设置页面,即可根据业务需要选择分段策略。

- 自动分段与清洗:选择该分段策略,会自动利用句号、分号、问号、感叹号等标点符号作为分段依据,将文档分割成一个个独立的句子或段落,无其他配置项。
- 自定义:选择该分段策略,完成以下配置。
- 分段标识符:分段标识符是用于识别和划分文本段落的特定字符或字符串。支持的分段标识符包括换行、2个换行、中文句号、中文叹号、英文句号、英文叹号、中文问号、英文问号、自定义分隔符(如"###")等。例如,在英文文本中,句号通常作为自然语言句子的结束标志,可以作为分段标识符。
- 分段最大长度:分段最大长度是指每个文本段落允许的最大字符数。设置分段最大长度可以防止段落过长,导致后续处理(如检索、匹配)的效率降低。同时,也能够确保每个段落包含的信息量适中,便于理解和分析。
- 分段重叠度%:分段重叠度%是指相邻段落之间共享的字符数占分段最大长度的比例。设置分段重叠度可以在一定程度上保留段落之间的上下文信息,避免因分段导致信息的割裂。这对于需要考虑上下文关系的文本处理任务(例如语义理解、上下文推理)尤为重要。
- 文本预处理规则:文本预处理规则是指在进行分段之前,对原始文本进行的一系列处理操作的规则。通过文本预处理,可以去除文本中的噪声信息、统一文本格式、纠正错误等,从而提高分段的准确性和后续文本处理的效果。支持的文本预处理规则包括:
- 替换连续的空格、换行符和制表符
- 删除所有 URL 和电子邮箱地址
- 按层级分段:选择该分段策略,完成以下配置。
- 分段层级:分段层级是指在文档结构中,根据内容的重要性和逻辑关系设置为多个层级。例如在一个企业产品手册中,分段层级可以包括产品概述(一级标题)、产品特点(二级标题)、技术参数(三级标题)等。产品概述作为一级标题,其下的“产品特点”和“应用场景”可以是二级标题,进一步细分的“特点一”、“特点二”则是三级标题。设置分段层级为 2 时,系统会将知识库内容按照一级和二级标题进行划分,形成清晰的结构化信息。

- 检索切片保留层级信息:检索切片保留层级信息是指在进行检索时,是否保留文档段落的层级结构信息,以便在检索结果中展示段落之间的层次关系。保留层级信息有助于更好地理解检索结果的上下文和逻辑结构,便于快速定位到所需的具体信息,并把握文档的整体内容布局。默认切片检索不保留层级信息,勾选后切片检索会保留层级信息。

配置完按层级分段,在预览分段时,还支持以下操作:
- 拖拽调整层级结构:通过拖拽操作,可以调整段落或章节之间的层级关系和顺序。例如,将一个二级标题拖拽到另一个一级标题下,使其成为新的子章节,或者调整两个同级标题的顺序。

- 按照层级合并为切片:右击层级标题,选择合并为一个分段,将选定层级及其子层级的所有内容合并为一个分段。例如,选择一个二级标题,系统会将其下的所有三级标题和对应内容合并为一个完整的分段。

- 删除切片:右击层级标题或分段内容,选择删除,从知识库中移除选定的分段及其所有内容。例如,如果某个章节不再需要,可以直接删除对应的分段,包括其下的所有子层级。
