RAGFlow 法律法规类文档切片参数最佳配置指南

📅 2026/6/27 6:35:46
RAGFlow 法律法规类文档切片参数最佳配置指南
适用场景:法律法规、合同条款、行业合规手册、地方建设标准、司法解释等结构化但语义复杂的文档。 目标:在 RAGFlow 中实现条款级精准检索、零偏差法条引用、跨条款关联推理。一、解析方法(Chunk Method)选择选择适用情况说明Laws(首选)标准法规、条款编号清晰(第X章/第X条/Article N)RAGFlow 官方为法律文档专门设计的模板,自动识别条款边界,保持条款完整性General + 自定义分段条款层级复杂(含司法解释嵌套)、混合内容配合"按标题分层(By Title)"使用,灵活性更高Manual章节分明的合规手册按章节标题切分,保留模块化结构RAGFlow 源码参考:rag/app/laws.py,使用正则第[零一二三四五六七八九十百0-9]+条与Article [0-9]+识别条款。二、核心切片参数参数推荐值说明块 Token 数(Chunk Size)512(普通条款)/1024(含释义的长条款)匹配中文法律条款平均长度,避免拆裂条款Chunk Overlap(重叠率)20% – 25%法规条款常有"依前款规定…"互引,需保留上下文分段标识符(Delimiters)\n+ 正则第[零一二三四五六七八九十百千0-9]+条+[;。!?]中文法规标点适配,;用于并列款项布局识别开启表格识别 + 多栏文本重组处理附表、罚则对照表OCR 引擎DeepDoc(默认)/ PaddleOCR 4.0+扫描版法规、手写批注识别更稳标题层级感知启用,正则\d+章\|\d+条\|\d+款保持"章—节—条—款—项"层级结构三、嵌入与检索配置3.1 嵌入模型中文法规:BAAI/bge-large-zh-v1.5(中文语义最佳,法律术语嵌入效果突出)跨语种 / 长条款:BAAI/bge-m3(支持长文本、多语种)英文法律:nomic-embed-text或text-embedding-3-large重要:一旦数据集已生成 chunks,无法切换嵌入模型,必须删除现有 chunks 才能更换。3.2 混合检索策略策略权重作用向量相似度(Vector)0.7语义相似匹配,"合同" ≈ "契约"关键词 BM250.3法律术语精确匹配相似度阈值0.2 – 0.3过高会漏召回相邻条款Top-K