Bellman方程 - RL强化学习中价值估计的数学根基 📅 2026/7/5 3:37:03 TL;DR Too Long; Didn’t Read太长没仔细看S statusA actionR reward下标 a~π读作 a 服从分布 πaaction智能体当前选择的动作πPolicy策略大模型 / 强化学习里就是策略模型输入状态 s 输出每个动作 a 的选择概率分布π 是一个函数 π(a | s) P(选动作a | 当前状态s)输入当前环境状态 s输出所有动作的概率分布这就是一套完整决策策略给定任意场景告诉每种行为该以多大概率执行早期控制论、马尔可夫决策过程MDP文献统一用小写希腊字母 π 代表策略映射函数学界约定俗成记号确定性策略π 直接输出唯一动作比如看到红灯一定停车随机策略LLM/PPO 使用输出概率分布即 π(a | s)Actor 是训练后的对话大模型数学上记为策略 π核心功能接收一段上下文输出词典里每个字token的生成概率用户输入 prompt今天天气很词典里候选 token好、差、冷、热、猫Actor 模型跑一遍后输出一组概率好70%冷20%热8%差1.8%猫0.2%这一组概率分布就是策略 π 在当前状态下给出的动作分布如果是确定性输出贪心解码直接选概率最高的好固定输出。但 RL 训练、日常生成对话用随机采样 a~π 按照上面的概率抽签选下一个 token70% 抽中好20% 抽中冷小概率抽到别的字随机采样输出文本完整生成整条回答的流程逐 token 循环输入 prompt今天天气很Actor (π) 算出所有 token 概率分布按概率随机采样 1 个 token比如抽到好把 今天天气很好 拼接成新上下文再丢回 Actor重复步骤 2-4不断采样下一个字直到生成结束标记完整回答就出来了为什么 RL/PPO 不能直接贪心选最高概率如果每次固定选概率最高 token回答会千篇一律缺乏多样性强化学习需要多条不同回答样本送入 RM 打分才能计算奖励、更新模型公式里的期望 Ea~π本质就是对「所有可能采样出来的回答」算平均收益只有随机采样才能模拟这个期望状态价值贝尔曼方程γ 国际音标/ˈɡæmə/中文标准读法伽马动作价值Q贝尔曼方程在状态 s 做出动作 a 的长期预期总回报 执行 a 拿到的即时奖励加上 γ 折扣后的「下一状态 s’ 能取到的最优长期回报」再对所有可能出现的下一状态 s’ 做概率平均 E最优贝尔曼方程是 Q-learning 这类强化学习算法的核心它假设从下一步开始全程都用最棒的策略决策示例V 和 Q 的区别其他补充总结贝尔曼方程就是把 “短期收益” 和 “长期未来收益” 绑定在一起让模型不只看眼前奖励学会长远最优决策