企业本体⼤模型-怎么训练这样的模型 📅 2026/6/25 19:04:37 在什么是本体推理文章中我们得出一个结论是推理强度最高的那一段需要一个真正会按本体的关系语义进行推理的模型而这个能力无法靠 prompt 获得必须训练进权重并且要以泛化的形态训练——一份权重服务任何一张本体。这一篇讲训练先把中心立场说在前面传统的 CPT、SFT 加 RL 这套流程优化的本质上是单轮的智能——一个输入对应一个输出的映射而上篇定义的那个推理循环是模型在环境里连续行动的一条轨迹走错与回退、跨步骤的因果、推理深度的取舍全部发生在轨迹的层面上。从单轮智能到端到端的轨迹智能中间隔着的东西监督数据补不上要靠 RLVR——在可验证的环境里对整条轨迹做强化训练。所以这一篇以 RLVR 为中心展开先明确训练目标再讲单轮训练为什么到不了这个目标然后进入 RLVR 的技术细节和轨迹上涌现出来的能力最后回头给 CPT 和 SFT 重新定位以及数据生产中容易出错的三个环节。训练目标会读任何一张本体的模型我们要训练的不是一个会做大族这套故障诊断的模型——那样换一家客户、换一张本体就需要重新训练没有通用价值。我们要的是一个会读任何一张本体的模型给它一张没有见过的本体它能读懂上面的关系语义并在这些关系的约束下生成出一条推理路径。这个目标可以直接写成一个优化问题。记O为一张本体、q为问题、tau为模型在环境中走出的一条轨迹、R为奖励theta* argmax_theta E_{O ~ D} E_{q ~ Q(O)} E_{tau ~ pi_theta(. | q, O)} [ R(tau; O) ]这个式子的结构本身就带着立场本体O在期望范围之内参数theta在期望范围之外——同一份权重要在本体的整个分布D上有效而不是为某一张本体专门优化“会读任何一张本体”就是要求训练出来的theta在D之外的陌生本体上仍然有效。下文方法/内容的分界正是这个结构的工程表述进权重的是theta留在输入里的是O。这个模型每次执行的实际上是同一个循环方法进权重内容留在输入里由这个目标可以推出第一条原则区分方法和内容。通用的关系逻辑——看到一条声明为可传递的关系知道可以继续向下推看到可逆的关系知道可以反向溯因看到互斥声明知道确认一个就能排除另一个——这部分属于方法需要训练进权重。而某条具体关系连接了哪些实体、某条价格对销量的量化曲线是什么形状、某台设备有哪条排除规则——这部分属于内容每次从输入的本体里读取不进入权重。这条分界如下图所示。训练出来的模型权重里装的是怎么读关系语义、怎么调用五种推理动作、怎么把动作组织成多跳推理不装任何一家客户的本体内容。客户的本体在推理时作为输入完整提供。这条分界同时回答了一个工程问题为什么换客户不需要重训——因为客户之间不同的部分全部在输入侧权重里的方法是共享的。这个目标的形态是一条轨迹不是一个映射第二条要从这个目标里读出来的东西关系到整个训练方案的结构。注意上面那个循环的性质它不是一次问答每一圈的输入都取决于上一圈的执行结果走错一步后面所有的状态都会偏离正轨。也就是说我们要训练的能力天然是一条在环境中展开的轨迹而不是一个从输入到输出的静态映射。普通的多跳推理模型与它的差别也在这里普通模型的多跳发生在一段文本内部每一跳的合理性靠语言上的通顺来保证本体推理的每一步要对着环境真实执行、对着关系语义核验合法性整条链在结构上逐步可查。能力的形态是轨迹决定了训练的中心必须放在轨迹级的优化上——这是下面整篇的主线。把两种形态并排写出来差别一目了然。监督训练优化的是一个静态映射的似然L_SFT(theta) - sum_{t1}^{T} log P_theta(y_t | y_t, q, O)而轨迹的展开有环境参与tau (s_0, a_0, s_1, a_1, ..., s_T)每一个新状态s_{t1} E(s_t, a_t)由环境真实执行决定。注意环境转移E在L_SFT里根本不出现——监督损失的梯度只流经标注序列上的 token模型从未为自己走出来的状态承担过后果。这一个缺席就是下一节三样东西的共同根源。单轮智能的边界监督训练教不出来的三样东西CPT 和 SFT 本质上都是单轮训练CPT 优化对下一个 token 的预测SFT 优化对一份标准答案的模仿监督信号都落在单个样本的内部。这套方法建立的能力是静态映射——见到什么样的输入产出什么样的输出。它在自己的范围内是有效的但轨迹上有三样东西逐样本的监督在结构上就给不出来。第一样是走错之后的回退。专家编写的推理样本是干净的——先想好答案再把过程顺着写出来一条直线走到底没有分支、没有错步。模型照着学学到的全部是在正确的状态下走正确的下一步。问题在于推理是逐步生成的模型一旦自己走错一步就进入了一个训练数据里从来没有出现过的状态而它在这种状态下该怎么办监督数据里没有答案——错误只会一步步放大没有任何机制把它拉回来。回退这个能力只能在模型真的走错过、并且因为纠正回来而获得奖励的过程中长出来而监督训练里模型从来没有机会走错。这件事有定量的刻画模仿学习的经典结果表明单步模仿误差为epsilon时轨迹层面的累计错误最坏可达O(T^2 * epsilon)量级Ross Bagnell, 2010——误差不是沿步数线性累加而是随轨迹长度平方放大因为每一次偏离都把模型带进监督分布没有覆盖、因而没有任何纠正梯度的状态。强化训练在模型自己生成的状态分布上优化错误状态本身进入训练分布回退才第一次有了学习信号。第二样是跨步骤的信用分配。一条多跳推理链最终结论的对错往往取决于很早的某一步——归摄错了类型后面每一步都会顺理成章地错下去。单轮的监督损失按 token、按句子计算它奖励的是每一步局部的通顺合理而第二步那个归摄选择导致了第八步的失败这种跨步骤的因果在逐 token 的损失函数里不存在对应的项。要把最终的奖惩沿着整条链正确地分摊回去需要轨迹级的优化目标。这个分摊在策略梯度里有明确的数学形态grad_theta J E_{tau ~ pi_theta} [ sum_{t0}^{T} grad_theta log pi_theta(a_t | s_t) * A_hat_t ]优势项A_hat_t负责把整条轨迹的成败折算到第t步——第二步的归摄选择如果系统性地导致失败它的A_hat_t就会持续为负哪怕这一步在语言上再通顺。监督损失里不存在A_hat_t的对应物因为每个 token 的目标都是给定的没有什么需要折算。顺带要指出一个代价奖励只在终点出现时A_hat_t的估计方差随轨迹长度增长长链上的信用分配会变得又慢又粗——这个问题在通用领域只能硬扛在本体场景却有结构性的缓解过程也可以验证一节会回到它。第三样是推理强度的自适应。上篇讲的无级变速——简单的题浅走、复杂的题深推——是一种策略层面的行为模型要自己决定走多深、什么时候停、什么时候补一轮校验。监督数据可以展示各种深度的推理链但在什么情况下选择什么深度这个决策本身在模仿学习里没有被直接优化它需要模型在反复尝试中体会到浅走会答错、无谓的深推有成本才能学出来。这三样合起来指向同一个结论上篇定义的那个能力形态上是一个在环境中行动的策略而不是一个问答函数。训练一个策略是强化学习的领域——具体到我们的场景是 RLVR。RLVR在可验证的环境里训练整条轨迹RLVRReinforcement Learning from Verifiable Rewards本身不是新东西它最早成立的地方是数学和代码算式的最终结果对不对、代码能不能通过单元测试对错可以客观判定强化训练就有了可靠的信号。但要注意它最初的形态——单轮的。模型一次性生成完整的解答奖励只在终点判一次中间没有环境交互、没有工具调用、没有状态变化。这两年训练技术上最重要的一个变化是工业界和学术界把这套机制从单轮外延到了轨迹模型在环境里连续行动每一步真实执行奖励落在整条轨迹上。RLVR 的能力边界因为这次外延被重新划定——它从一个解题的训练方法变成了塑造行动策略的训练方法。下图把外延前后的两种形态画在一起。我们的训练方案建立在这次外延之上让模型在一个能够真实执行、能够客观判定对错的环境里完整地解题按可验证的结果给奖励在轨迹级别上优化。并且本体场景在这条路线上还有一项别处没有的结构性优势后面会讲到。下面把这套机制的几个组成部分拆开讲。环境与可验证奖励环境包含三样东西完整的本体作为输入提供给模型、可以真实调用的工具数据查询、计算、设备状态读取以及一个独立的验证机制 answer_check。模型在环境里的一次完整运行称为一条 rollout从用户问题出发按前面那个循环逐步推进——生成一步、调用工具、读取新状态——直到给出结论answer_check 判定结论的对错判定结果就是奖励。这套结构如下图所示。这里有两个设计要求需要专门强调。第一验证必须独立结论的真值来自历史的真实结果、独立的专家标注、或者可校验的硬约束不能让模型评价自己的答案也不能复用模型推理时用过的同一个信号——否则验证方和被验证方是同一个来源筛出来的正确是循环论证。第二奖励必须可验证而不是可感觉如果用一个学习出来的奖励模型打分模型很快会找到讨好打分器的捷径分数上升而能力没有上升。对错可以被客观判定是这套方法敢于加大训练量的前提也是 RLVR 区别于一般 RLHF 的地方。档位四那类没有标准答案的探索题会对可验证提出一个追问答案本身没有唯一的对错验证落在哪里落在可以客观判定的部分上。一条探索轨迹里可判定的东西其实很多每条路径的推演计算是否正确、约束校验的结论是否成立、最终的分层结果与约束判定是否一致有历史真实经营结果的场景还可以拿真实结果做对照。不可判定的部分也要明确划出来约束之内几条路孰优孰劣的取舍属于经营偏好的判断不进入奖励——把它强行写进奖励训练出来的只会是某种固定的口味这部分由模型综合各条路径的后果给出建议最终的确认和执行由人完成。这样划分之后训练信号始终落在可以客观判定的部分上可验证奖励的根基并不因为问题开放而松动。这段划分同样可以写成奖励的形状R(tau) alpha * I[推演计算正确] beta * I[约束校验结论成立] gamma * I[分层与约束判定一致] delta * I[与历史真实结果相符]式子右边的每一项都是指示函数——要么可以客观判定要么不出现在式子里。哪条路更好这个取舍在式子里找不到自己的项这不是省略是设计它属于人不属于R。本体场景的一个天然优势过程也可以验证通用领域的 RLVR——数学和代码是最典型的——通常只有最终答案可验证算式的结果对不对、代码能不能通过测试。中间的推理过程是黑箱奖励信号只挂在终点既稀疏也分辨不出结论碰巧对、过程其实错的轨迹。下图把两种形态的奖励信号对照画出。本体场景在这一点上有一个结构性的优势上篇讲的关系语义本身就是一台过程级的验证器。推理链的每一步都声称自己依据本体上的某条关系那么这条关系是否存在、是否可逆、是否可传递、这一步的用法是否合法对着本体逐步可查。这意味着奖励信号不必只挂在终点——一条结论恰好正确、但中间某一步违反了关系语义的轨迹可以被识别出来降权或者剔除反过来过程完全合法、只在最后一步出错的轨迹也可以保留它正确的前缀。最终答案的对错加上每一步的合法性两层信号同时存在。这是本体推理做 RLVR 比开放领域更顺的地方也从训练侧再一次说明了为什么关系语义的标注必须先行——它不只是推理的地基还是过程验证器的判定依据。把这两层信号写进奖励就是过程奖励在本体场景的形态R(tau) R_out(y_T) lambda * sum_{t0}^{T} v(s_t, a_t)其中R_out是 answer_check 给出的终点判定v(s_t, a_t)是关系语义对第t步的裁定合法取0、违法取-1lambda控制过程项的力度。前面图上那两类轨迹的命运在这个式子里成了可计算的事实结论碰巧对、过程违法的轨迹R_out 1但sum v 0总奖励被压下去过程全部合法、末步出错的轨迹违法惩罚精确落在出错的那一步前面的步骤不再被整条轨迹的失败连坐正确前缀得以保留。它也正面回应了信用分配一节留下的方差问题A_hat_t的估计不再依赖一个终点信号摊给T步每一步自带局部判定信号变密、估计变稳——关系语义是过程级验证器这句话在训练数学里就兑现在这里。轨迹怎么生产、怎么筛选实际训练中同一道题会让模型采样多条 rollout然后按验证结果分流处理。跑对且过程合法的轨迹是正样本它们直接用于强化训练也可以回流补充 SFT 数据让推理骨架随着模型自己的成功经验持续加厚。跑错的轨迹不是废料把同一道题的正确轨迹和错误轨迹配成对做偏好优化模型学到的不只是这样走对还有那样走错、错在哪一步——负样本携带的信息常常比正样本更密。这个生产机制还有一个工程含义值得说明轨迹数据的规模化不依赖专家逐条标注。专家提供的是题目和真值——这是推理样本的职责下一节还会讲到——过程数据由模型自己在环境里大量生成由验证机制自动筛选。专家投入决定的是题目的质量和覆盖数据的量级由采样和算力决定。监督数据做不到的规模在这套机制里是可以达到的。在轨迹上涌现出来的能力按这套机制训练前面说的三样东西开始在轨迹上出现而它们没有一样是被显式标注教出来的。回退是第一样。探索过程中模型必然走错而那些走错之后纠正回来、最终拿到奖励的轨迹使纠错行为本身得到强化。监督数据在结构上给不出从错误状态恢复这件事因为干净的专家样本里不存在错误状态环境里的探索天然提供这种状态奖励信号天然偏好能从中恢复的策略。信用分配是第二样。轨迹级的优化目标会把最终的对错沿整条链分摊回去那条在第二步就归摄错误、导致全链失败的轨迹和在第二步归摄正确、最终成功的轨迹在第二步上的差异会被对比出来。早期的关键选择开始承担它应有的奖惩这是逐 token 的监督损失做不到的。强度自适应是第三样。浅走的轨迹在难题上拿不到奖励无谓深推的轨迹付出长度和成本的代价模型在两头的压力之下逐渐形成该深则深、该浅则浅的换挡行为。上篇那根连续的强度轴在模型行为里的对应物就是在这一阶段被塑造出来的。这三样能力是轨迹级优化在足够的探索之上长出来的。这也是我们在内部把 RLVR 称为能力涌现层、而把监督阶段称为基础层的原因——下一节就讲这两级台阶。CPT 与 SFT 的重新定位把模型送进环境以 RLVR 为中心之后CPT 和 SFT 并没有变得不重要它们的角色变了从培养能力的主体变成把模型送到环境门口的台阶。这个定位有一个非常实际的依据把一个没有准备的模型直接扔进环境做强化训练是不收敛的——奖励太稀疏模型几乎采不出正确的 rollout没有正样本整个筛选回流的机制就转不起来。台阶有两级。CPT让模型进环境之前认识这个世界CPT 阶段输入领域语料、本体的 schema、关系语义的标注文本让模型熟悉这个领域的语言、术语和本体的结构形式。它建立的是基础的领域熟悉度不教授答题方式——这个定位反过来是一条数据投放原则广量的领域数据应该集中在这一层消化因为 CPT 只增长底层的熟悉度不会把某种答题策略固化成模型的默认行为。对 RLVR 而言CPT 保证的是模型进环境之后rollout 从第一步起就不是乱走——它认得本体上的术语读得懂 schema 的形式。SFT给探索一个足够好的起点SFT 阶段输入专家编写的推理样本。一份合格的推理样本包含三个部分一个问题、一个确定的答案、加上一段推理过程——过程中每一步都标明依据本体上的哪条关系、哪条规则整条链可以逐步对照验证。在以 RLVR 为中心的方案里SFT 的职责可以说得很精确它是探索的冷启动。强化学习的效率取决于正样本出现的频率SFT 把模型解题的成功率从接近零拉到一个可用的区间使得环境里的采样能够以可接受的成本筛出正确轨迹——推理的骨架在这里第一次成形RLVR 在这副骨架上做的是放大和精炼。这件事还有一个朴素的算术设初始策略采出一条合法且正确轨迹的概率为p0RLVR 拿到第一份正信号的期望成本就是1 / p0条 rollout。p0接近零时强化训练空转SFT 的全部职责就是把p0抬进可工作的区间——它不需要把模型教到多好只需要让探索不再是大海捞针。这一阶段需要专门防范一个问题模型把本体内容背进权重表现得像是学会了推理实际上是在复述记忆。针对它有三道防线。第一道是节点随机化训练时把本体里的节点名随机替换成无意义符号比如把主轴轴承替换成X7、把编码器替换成K3。替换之后记忆失去用处——“X7 通常出什么毛病在任何数据里都不存在答案模型想答对只能依靠读关系、走结构。第二道是本体永远作为输入每条训练样本里本体都完整出现在输入侧模型需要的任何内容知识都能从输入里读到梯度就没有动力把内容压进权重。第三道是推理过程只允许引用本体显式内容专家编写样本时的一条纪律推理链每一步的依据必须是本体上明写的关系或规则不允许夹带通用常识做桥——混入常识桥的样本会教坏模型它会学到本体不够用的时候可以编”而这恰好是要训掉的行为。最后是一条工程上的提示这两级台阶都不依赖环境——CPT 只需要语料SFT 只需要推理样本——所以它们可以在环境建设完成之前先行启动。环境是整条流水线里建设周期最长、不确定性最高的部分让它并行推进训练不必空等。数据生产中容易出错的三个环节上面这套以 RLVR 为中心的方案流程本身并不复杂实际容易出问题的是数据生产中的三个环节。推理样本和轨迹是两类不同的数据推理样本由业务专家编写——先确定答案再把推理过程完整写出来附上可以验证的依据它没有分支、没有试错、没有真实的工具调用。轨迹是模型在可执行的环境里运行出来的过程数据其中包含工具调用、走错后的回退、每一步的置信程度。这两类数据的关系是推理样本是轨迹的规格书和验收标准而不是轨迹的简化形式。两个方向的混用都会造成实际损失。把专家编写的样本直接当作轨迹训练训练出来的是一个会背诵标准步骤的模型遇到需要试错回退的真实问题时没有对应能力反过来要求专家去编写带分支、带回退的执行过程超出了专家的工作形态——专家擅长给出正确的推理和可验证的结论过程形态的数据由模型在环境里生成、由验证机制筛选。分工划清两类数据各自的产量和质量才有保证。关系语义的标注必须排在轨迹采集之前上篇讲过每一步推理是否合法由底层的关系语义裁定这一篇又多了一条理由——过程级验证器的判定依据就是这层语义。但它在现成的本体里常常是隐含的本体标明了包含依据这些关系连接了哪些实体却没有标明它是否可逆、是否可传递、是否携带量化函数。在语义缺失的本体上采集推理数据采回来的每条链都无法核验合法性过程验证无从谈起。因此有一项容易被跳过的基础工作把每类关系的可逆性、传递性、互斥与蕴含先补标出来。这项工作比推理样本和轨迹都更靠近底层必须排在它们之前。可执行、可验证的环境是流水线的瓶颈以 RLVR 为中心等于把整个方案的产能压在了环境上rollout 在环境里跑验证靠环境判轨迹由环境产。这个环境——接入真实数据的沙盒或者基于历史记录搭建的模拟器配上独立的 answer_check——推理样本的验证依据写得再完整它不就位轨迹一条也生产不出来能力涌现层就没有燃料。从实际经验看这条流水线的堵点通常不在专家、也不在标注而在环境是否就位它的建设周期长、不确定性高应该最早立项与 CPT、SFT 的数据准备并行推进而不是排在数据之后。把这三个环节处理好前面那套以 RLVR 为中心的流程才能真正运转起来。至于怎么判断训练真的成了最硬的检验只有一条把一张完全陌生领域的本体交给模型它仍然能读懂关系语义、走出合法的推理链——会读任何一张本体这个目标要在从未见过的本体上兑现才算数做不到这一点训练出来的仍然只是一个领域专用模型。最后回头看这两篇的关系。上篇把要训练的能力定义成一条在本体约束下展开的轨迹答案唯一的一端是深度诊断答案需要生成的一端是开放探索。下篇给出的方案本质上是让训练信号也长成轨迹的形状可以客观判定的部分进入奖励约束之内的取舍由模型综合给出、由人确认。训练的形态对齐了能力的形态是我们把 RLVR 放在中心、把 CPT 和 SFT 重新定位成台阶的根本理由。最后预告一句模型训练完成后会有单独一篇工程实战文交代完整的实验设置和跨本体评估的结果——这两篇文章立下的论断到那时用数字兑现。参考文献Ross, S. Bagnell, J. A. Efficient Reductions for Imitation Learning. AISTATS 2010, PMLR 9:661–668.平方复合误差界的原始出处Ross, S., Gordon, G. Bagnell, J. A. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS 2011.DAgger在模型自身状态分布上训练的模仿学习修正Lightman, H. et al. Let’s Verify Step by Step. 2023.过程监督与结果监督的系统对比Lambert, N. et al. Tülu 3: Pushing Frontiers in Open Language Model Post-Training. 2024.RLVR 的命名与实践DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. 2025.可验证奖励驱动的推理能力涌现