21种RAG分块策略:小白程序员必备,收藏这篇轻松入门大模型实战

📅 2026/6/26 7:33:51
21种RAG分块策略:小白程序员必备,收藏这篇轻松入门大模型实战
本文详细介绍了RAG技术中分块策略的21种方法包括朴素分块、固定窗口分块、滑动窗口分块等针对不同数据格式和结构提供了具体适用场景。掌握这些策略对于构建高效、准确的RAG系统至关重要是程序员学习和应用大模型技术的实用指南。检索增强生成Retrieval-Augmented Generation简称 RAG是很多 AI 工程师“又爱又恨”的一项技术。理论上它听起来很简单“从自定义数据中检索出上下文让 LLM 基于这些内容生成答案。”但在实践中你可能会陷入这样的循环调整分块方式更换嵌入模型替换检索器微调排序器重写 prompts 最后模型仍然告诉你“我不知道。”甚至还信誓旦旦地生成一堆幻觉内容。其中有一个看似不起眼却影响巨大的环节Chunking分块。数据格式不同、结构不同、用途不同对应的分块方式也不同。❗选错了方法模型要么抓不到重点要么直接跑偏。1️⃣ 朴素分块Naive Chunking按每个换行符拆分文本。适用场景笔记、FAQ、聊天记录、逐行内容独立的转录文本⚠️ 如果每行太长容易超出 LLM Token 限制太短可能缺失上下文。2️⃣ 固定窗口分块Fixed-size Chunking按字符数或词数平均拆分即使切断语义也无所谓。适用场景无结构的大型文本如扫描件、杂乱转录、纯文本数据3️⃣ 滑动窗口分块Sliding Window Chunking与固定窗口类似但每个块有一定重叠。适用场景思路连贯的长句文本如散文、报告、论文无格式的自由文本⚖️权衡 token 重复 vs 上下文连续性4️⃣ 基于句子的分块在句号、问号、感叹号后拆分。适用场景博客、技术文档、摘要等每句表达独立思想的文本用于后续更复杂分块的初步预处理5️⃣ 基于段落的分块每个段落一个块通常以双换行分隔。适用场景结构清晰但缺少标题的文本用关键词判断段落主题切换时6️⃣ 基于页面的分块一页就是一个 chunk。适用场景PDF、幻灯片、扫描文档等分页内容需要引用页码的检索系统7️⃣ 结构化分块按照结构标记如 HTML 标签、日志时间戳、JSON 字段进行拆分。适用场景处理日志、JSON、HTML、CSV 等结构化数据8️⃣ 基于文档结构的分块根据标题、小节等自然结构划分。适用场景有明确标题的文档如教材、文章、报告、论文适用于构建多级结构或分层检索系统9️⃣ 关键词分块在特定关键词处拆分如“问题”、“主题”、“注意事项”等。适用场景无结构文档中用关键词来标记主题切换点 实体分块NER使用命名实体识别提取实体并将相关内容聚集成块。适用场景法律合同、新闻稿、剧本、案例研究等强调“人/地/物”的文档1️⃣1️⃣ 基于 Token 分块按 token 数量拆分使用 tokenizer。适用场景无结构文本 token 限制严格的模型环境✅ 可结合句子分块避免切断句子1️⃣2️⃣ 基于主题的分块先按小单位拆分再用主题建模如 LDA、聚类分组。适用场景包含多个主题但无明显标记的文档需要保持语义一致性的分块1️⃣3️⃣ 表格感知分块识别并独立处理表格按行、列或整体。适用场景含结构化表格内容的报告、财务文档等1️⃣4️⃣ 内容感知分块根据内容类型调整策略表格保留、段落合并、列表识别。适用场景混合格式文档图文混排、表格正文1️⃣5️⃣ 上下文增强分块在分块前由 LLM 添加上下文或摘要。适用场景复杂文档如财报、合同知识库内容量适中能整体放入 LLM 处理时1️⃣6️⃣ 语义分块利用嵌入相似度将话题相关内容归组。适用场景多主题长文档简单方法无效时使用 聚焦“讲的是一件事”而非“放在哪段”1️⃣7️⃣ 递归分块先粗后细逐层递归拆分直到满足长度要求。适用场景内容长度波动大如对话、采访、发言稿等1️⃣8️⃣ 基于嵌入的分块先嵌入每句话再按相似度动态聚合。适用场景完全无结构文本滑动窗口等方法效果差时可尝试1️⃣9️⃣ 基于 LLM 的分块Agentic Chunking让大模型自己判断如何拆分。适用场景内容复杂到需要“人类判断”的情况 计算成本高需谨慎使用2️⃣0️⃣ 分层分块Hierarchical Chunking划分多层级如“章节 ➝ 小节 ➝ 段落”保留上下文结构。适用场景教材、手册、研究论文等有层级结构的内容适合“先看大纲再看细节”的用户体验需求2️⃣1️⃣ 模态感知分块Modality-Aware将不同类型的内容如文字、图片、表格分开处理。附加策略混合分块Hybrid Chunking融合多种方法、嵌入、启发式规则或 LLM打造更稳健的分块系统。适用场景没有一种方法适配你的数据时多种文档类型共存时✅总结选择合适的 Chunking 策略不只是技术细节而是决定 RAG 系统成败的核心变量。 掌握这 21 种策略能让你的 LLM 系统更聪明、更稳健、更可靠。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取