【学习笔记】垂直领域大模型:行业微调实战指南(9/35)

📅 2026/6/30 5:14:53
【学习笔记】垂直领域大模型:行业微调实战指南(9/35)
前两篇讲了 SFT 和 DPO从「会做」到「做得好」。这一篇我们聊一个每个业务团队迟早都要面对的问题怎么把通用大模型变成「行业专家」打开 HuggingFace你能看到一堆这样的名字Med-PaLM 2 (医疗) BloombergGPT (金融) LawGPT / DISC-LawLLM (法律) ChatLaw (法律) HuatuoGPT (中医) FinGPT (金融) CodeLlama (代码) ...每一个都是某个行业的「垂直大模型」。背后的工程问题极其现实法律团队合同审查、案例检索、文书生成医疗团队辅助诊断、病历摘要、医学问答金融团队研报生成、风险分析、客户服务客服团队行业知识 QA、工单分类、智能回复这些场景用通用 Claude / GPT 也能跑但有三个不可回避的痛点专业术语理解不准——「再保险分入」「除权除息」「丙肝抗体阳性」需要更深度的领域知识数据合规要求——金融、医疗、法律的数据往往不能出本地响应速度与成本——大流量场景下通用 API 太贵太慢垂直大模型就是为了解决这三个痛点。但做不做、怎么做、做了值不值——这是一系列复杂的工程决策。读完本文你将能判断你的场景到底要不要做垂直微调选对适配路线Prompt / RAG / SFT / CPT设计垂直微调的完整数据 训练流程用一个法律领域案例理解全流程避免 5 个最常见的垂直化陷阱我们开始。一、垂直领域大模型的「需求与现实」1.1 通用大模型在垂直场景的局限通用大模型如 Qwen3-72B、Claude在垂直任务上表现究竟怎样我们用三个真实场景看场景 1合同审查用户请审查这份合同的违约责任条款。通用 Claude给出 5 条通用建议DISC-LawLLM 微调版识别出逾期超过 30 日、履约保证金等条款的合规性问题引用《民法典》第 577 条通用模型给的是教科书答案垂直模型给的是实务答案。场景 2医疗问答用户请解释非小细胞肺癌 IIIA 期 T2aN2M0的含义。通用 GPT-5给出基本解释可能漏掉N2 表示纵隔淋巴结转移的临床意义HuatuoGPT-II结合 TNM 分期 治疗指南 预后判断给出深度分析通用模型有广度垂直模型有深度 准确性。场景 3金融研报用户用这季报数据生成一份新能源板块研报。通用 GPT套通用模板关键指标命名错误FinGPT-X用券商研报标准格式引用同花顺/Wind 字段命名规范核心区别垂直大模型不是更强而是更懂行业的语言和惯例。1.2 工程师做垂直化的常见动机动机占比典型问题效果不够——通用模型在专业任务表现差40%术语错误、推理不深合规性——数据不能出本地25%金融、医疗、政府成本压力——API 调用量过大20%客服、高频问答延迟要求——通用 API 延迟不可接受10%实时辅助决策品牌定位——专业领域形象5%ToB 销售卖点很多团队选择垂直化只是因为觉得听起来很 ToB——这是最容易踩坑的动机因为如果只是为了营销往往做完发现效果还不如直接调 API。1.3 一个关键认知垂直化 ≠ 越大越好工业上反复验证过的事实垂直场景下一个微调过的 7B / 14B 模型往往比通用的 70B 模型更好用。原因垂直数据让小模型学到了懂行话推理速度快 5-10×部署成本低 10×微调后效果在专业任务上能达到甚至超过通用大模型这也是为什么 ToB 市场上 7-14B 微调模型非常受欢迎——通用大模型杀鸡用牛刀垂直微调小模型刚好。二、垂直适配的三条路线不是所有垂直化都要训模型。按轻重排列有三条路轻 ────────────────────────────────────── 重 Prompt RAG → SFT → Continued Pretraining每条路线都有自己的性价比甜区。2.1 路线一Prompt RAG最轻做法准备好行业 prompt 模板system prompt 示例把行业知识库做成向量索引推理时从知识库检索 → 拼到 prompt → 调用通用大模型适用场景知识查询为主FAQ、政策、产品信息数据更新频繁每天/每周团队没有训练资源业务还在快速迭代优势0 训练成本数据可以增量更新上手快1-2 周可上线劣势术语理解依赖检索质量复杂推理任务表现一般对通用模型能力有依赖典型场景客服 QA、企业知识助手、政策咨询。2.2 路线二SFT 微调中等做法选一个开源基座Qwen3、DeepSeek、Llama 等准备数千-数万条领域指令对用 QLoRA 等方法 SFT可选再做 DPO 提升体验适用场景需要让模型会用行业术语输出格式严格病历、合同、研报模板工具调用专业医疗 ICD 编码、金融 API数据量适中5K-10万条优势比 Prompt 效果好 10-30%可以做到推理快、成本低数据隐私可控劣势需要构造高质量训练数据训练有成本虽然 QLoRA 大幅降低灾难遗忘风险-----------------------------------------------------注灾难遗忘Catastrophic Forgetting在SFT微调语境下是指模型在学习新指令能力的同时大幅丧失基座模型原本具备的通用知识和推理能力。本质原因神经网络在持续学习新数据时权重更新会覆盖掉之前学到的通用表征尤其是当新数据分布与原始预训练数据分布差异较大、或新数据量相对较小时这种现象更明显。灾难遗忘的本质是共享权重空间中新旧任务的梯度冲突。工业界当前的银弹组合是LoRA 数据混合回放 低学习率早停。如果必须做全参微调务必混入预训练数据并使用严格的 warmup/cosine 调度。------------------------------------------------------典型场景行业客服、文档生成、专业问答。2.3 路线三Continued Pretraining最重做法在通用 base 模型上继续做预训练用大量领域无标注语料几十 GB-几 TB算力几十-数百 H100 小时再接 SFT DPO适用场景行业有独特语言古文、医学拉丁、法律条款引用行业有大量私有数据医疗病历、法律案例库业务长期投入 想构建数据壁垒优势模型对行业的内化最深长尾术语理解最好可以做出行业基座持续复用劣势成本最高10-100 万人民币级周期长1-3 个月需要专门团队严重的灾难遗忘风险要小心配比典型场景行业基座如 BloombergGPT、Med-PaLM。2.4 三种路线决策表场景特征推荐路线知识库为主、需快速上线Prompt RAG输出格式固定、术语适中SFT高频问答、有 5K 数据SFT行业语言极独特CPT SFT数据隐私要求高SFT 或 CPT自部署长期投入、想做基座CPT SFT DPO团队没有训练经验Prompt RAG 先跑数据 1000 条不要训用 Prompt核心原则从轻到重渐进。先做 Prompt RAG 跑通业务再判断需不需要 SFT再判断要不要上 CPT。三、垂直微调的完整流程下面以SFT 路线为主线最常见详细讲完整流程。3.1 第一步选基座选错基座后面全是补救成本。判断维度维度 1基础能力看模型在通用能力 benchmarkMMLU / CEval / GSM8K的成绩——这是你微调后的能力下限。维度 2领域基础很多基座已经在某些领域有偏向DeepSeek-V3 / Coder代码、数学、推理强Qwen3 系列中文、知识广度强Llama 3 / 4英文为主生态丰富Phi 系列小尺寸、数学好InternLM中文垂直友好选模型时找一个已经偏向你的行业的基座微调效果会好很多。维度 3模型规模业务规模推荐规模单卡部署、低成本7B-14B双卡部署、中等流量32B集群部署、高质量70B端侧/移动1.5-3B维度 4LicenseLlama 系列商业可用但有 700M 月活上限条款Qwen / DeepSeek / GLM完全商业开源Mistral分商用版和开源版国内业务建议优先 Qwen / DeepSeek——中文好 license 干净 国产合规友好。3.2 第二步数据构建这是垂直微调成败的关键。数据来源 4 大类来源优势难点业务积累数据真实分布量少、需脱敏公开领域语料量大质量参差合成数据用 GPT-4 / Claude 生成量可控知识产权 近亲繁殖专家标注质量极高成本高数据构造模板CPT 数据如果走 CPT 路线原始领域文档无标注 ↓ 清洗 / 去重 / 质量过滤 ↓ Tokenize → 拼成长序列typically 2K-8KSFT 数据更常见{ messages:[ {role:system,content:你是一名资深律师}, {role:user,content:请审查这份合同的违约责任条款...}, {role:assistant,content:根据《民法典》第 577 条...} ] }数据量参考任务类型推荐数据量简单格式适配1K-3K中等复杂度领域 QA5K-20K深度专业能力50K-200K多任务领域大模型100K-1M新手常犯错误以为越多越好结果数据噪声大、训练效果反而退化。5K 精数据 50K 噪声数据。3.3 第三步训练配方按CPT → SFT → DPO三阶段每阶段配方都不同。CPT 配方可选学习率: 1e-5~5e-5 # 必须比预训练小 10× Batch size:1M-4Mtokens # 跟预训练接近 Schedule:cosine10%warmup 通用语料配比:20-30% # 防灾难遗忘 训练步数:看数据量通常 5K-50K通用语料配比是关键——纯领域数据训会让模型忘了说人话。Llama 3 的领域适配版基本都混了 20% 通用数据。SFT 配方方法: QLoRA(r64,alpha128) 学习率:2e-4 Batch size:16-32(累积梯度) Epochs:2-3 通用SFT数据混入:10-20% # 防遗忘 学习率调度:cosine3% warmupDPO 配方可选效果加成学习率: 5e-6 ~ 1e-5 # 比 SFT 低 Beta: 0.1 Epochs: 1 偏好对来源: 专家标注 自动生成3.4 第四步评估垂直模型评估要做三个维度缺一不可。维度 1领域能力法律法考真题、案例分析准确率医疗USMLE / MedQA / 临床指南问答金融CFA 真题、研报评估注意要有hold-out 测试集不在训练集里。--------------------------------------------------------------------------------------------------------------------维度 2通用能力跑 MMLU、CEval、GSM8K确认没有灾难遗忘。经验值相比 base 模型下降 5% 算正常下降 10% 必须调配方。维度 3人工 / LLM 评估对真实业务问题做 A/B 测试盲测让专家给 base / 微调 模型回复打分不告诉哪个是哪个GPT-4 as Judge用 GPT-4 / Claude 自动打分真实用户灰度上线 5-10% 流量看反馈四、实战案例法律领域大模型下面用一个完整的法律领域案例串起整个流程。4.1 项目背景目标做一个面向中小律所的合同审查 法律咨询助手预算30-50 万元含数据、算力团队3 名 AI 工程师 2 名法律顾问周期3 个月4.2 选型决策经过对比测试候选优势劣势决定Llama-3-70B通用能力强中文法律弱、显存大❌Qwen3-32B中文强、规模适中法律基础一般✅DeepSeek-V3推理强太大、成本高❌Qwen3-14B单卡部署、便宜能力上限略低备选决定主线 Qwen3-32B LoRA备选 14B 做端侧部署。4.3 数据构建总数据量约 12 万条 SFT5 GB CPT 语料。数据来源数据量用途北大法宝 / 中国裁判文书网50 GB 原始 → 5 GB 清洗后CPT法律法规库民法、刑法等1 GBCPT SFT业务合作律所案例2 万条SFT合成问答GPT-4 法律条款8 万条SFT法考真题与解析2 万条SFT通用指令混入Alpaca-zh1.2 万条SFT4.4 训练流程Step 1CPT轻量基座: Qwen3-32B-Base 方法:LoRA(r256) # CPT 用更大 rank 学习率:3e-5 数据:5GB法律语料20%通用 训练:5epochon法律部分 算力:8×H100×5天≈1000 H100小时 成本:约2 万人民币Step 2SFT基座: 上一步CPT结果 方法:QLoRA(r64,alpha128) 学习率:2e-4 数据:12万条SFT(含10%通用) 训练:3epoch 算力:2×H100×3天≈144H100小时 成本:约3000 人民币Step 3DPO增强基座: 上一步SFT结果 方法:QLoRADPO 学习率:5e-6 数据:5000条专家偏好对(律师评审) 训练:1epoch 算力:2×H100×2天≈96H100小时 成本:约2000人民币5000条标注约5 万人民币合计成本~58 万人民币包括数据采集、标注、算力、人工。4.5 评估结果经过 3 个月迭代最终模型在法律领域 benchmark 上的表现指标base Qwen3-32B微调后提升法考客观题准确率68%84%16 pt合同条款识别 F10.710.8918 pt案例引用准确率52%81%29 ptMMLU通用76%74%-2 pt可接受用户满意度5 分制3.84.40.6对比商业 API模型合同条款识别 F1单次推理成本Claude Opus 4.70.92$0.05GPT-50.88$0.04我们的微调 32B0.89$0.005结论微调 32B 在领域任务上接近顶级闭源但成本仅 1/10。这就是垂直化的工程价值。五、避坑清单 决策建议5.1 5 大常见陷阱坑 1灾难遗忘症状法律模型连今天天气怎样都答不好。对策SFT 数据混入 10-20% 通用指令学习率小一些QLoRA 2e-4 已经偏大训练 epoch 不要超过 3不要忘了 base 模型评估坑 2数据近亲繁殖症状用 GPT-4 合成数据训自己效果反而下降。对策合成数据 专家标注混合至少 20% 真实数据多个 teacher 模型混合生成严格去重和质量过滤坑 3评估过拟合症状领域 benchmark 飙升真实业务反而退步。根因测试集和训练集分布太相似。对策Hold-out 测试集严格隔离用真实业务样本做评估人工 / LLM Judge 评估必不可少坑 4通用能力塌方症状MMLU 下降 10%模型变笨。对策通用数据配比加到 30%用 LoRA 而非全参自带保护学习率减半退一步放弃 CPT只做 SFT坑 5过度训练症状训越多越差。对策监控 val loss早停不要用同一份数据多 epoch用 cosine schedule 不要 constant LR5.2 何时该放弃自己训老老实实用通用 API的几种场景数据量 1000 条——训不出名堂业务还在快速变——刚训完就过时专业判断核心医疗诊断——可信赖性不够预算 5 万——大概率不够覆盖完整流程团队没微调经验——先用 Prompt RAG 跑通反之可以考虑训数据量 5K且质量可控业务稳定3 个月以上保留期有明确的成本/合规驱动有微调经验或顾问支持5.3 端侧化部署垂直微调后可以进一步做端侧化微调 32B → 蒸馏到 7B / 3B → INT4 量化 → 端侧部署典型场景律所内网部署数据完全不出域医院本地工作站HIPAA / 等保合规销售移动端离线可用 详见系列第 33 篇端侧大模型。六、扩展话题与下一篇预告6.1 多领域共存单基座 多 LoRA如果你需要服务多个领域法律 医疗 金融有两种方案方案 A训一个通用专业大模型一个 base 一份混合 SFT方案 B训多个 LoRA按业务热切换方案 B 更工程友好——一份 base 部署按请求加载不同 LoRA资源效率高。vLLM、SGLang 都已支持。6.2 RAG 微调混合最强实战中最常见的高效组合微调让模型懂行话术语、格式、风格 RAG 给模型实时知识最新法规、案例 准确性 时效性 成本可控 详见系列第 26 篇RAG 实战。6.3 行业基座 vs 通用基座 微调2025-2026 的一个新观察通用大模型进步太快垂直预训练的小厂被卷死。很多曾经的行业大模型已经被通用模型 简单微调超过。这意味着完整自研 CPT 越来越不划算「通用基座 LoRA」越来越主流数据 工程优化比自研基座更重要未来趋势基座由几家头部公司提供行业团队的核心价值在数据、评估、应用工程化。结语垂直化是「精打细算」的工程艺术读完本文你应该明白垂直化不是训个新模型而是Prompt → RAG → SFT → CPT 的渐进式工程小模型微调 大模型通用——在专业任务上这个公式很多场景成立数据 评估 工程化是垂直团队的核心竞争力不是基座本身80% 场景SFT QLoRA 就够不要轻易上 CPT永远要保留通用能力——灾难遗忘是垂直化的头号杀手。