Bellman方程 - RL强化学习中价值估计的数学根基

📅 2026/7/5 3:37:03

TL;DR Too Long; Didn’t Read太长没仔细看S statusA actionR reward下标 a~π读作 a 服从分布 πaaction智能体当前选择的动作πPolicy策略大模型 / 强化学习里就是策略模型输入状态 s 输出每个动作 a 的选择概率分布π 是一个函数 π(a | s) P(选动作a | 当前状态s)输入当前环境状态 s输出所有动作的概率分布这就是一套完整决策策略给定任意场景告诉每种行为该以多大概率执行早期控制论、马尔可夫决策过程MDP文献统一用小写希腊字母 π 代表策略映射函数学界约定俗成记号确定性策略π 直接输出唯一动作比如看到红灯一定停车随机策略LLM/PPO 使用输出概率分布即 π(a | s)Actor 是训练后的对话大模型数学上记为策略 π核心功能接收一段上下文输出词典里每个字token的生成概率用户输入 prompt今天天气很词典里候选 token好、差、冷、热、猫Actor 模型跑一遍后输出一组概率好70%冷20%热8%差1.8%猫0.2%这一组概率分布就是策略 π 在当前状态下给出的动作分布如果是确定性输出贪心解码直接选概率最高的好固定输出。但 RL 训练、日常生成对话用随机采样 a~π 按照上面的概率抽签选下一个 token70% 抽中好20% 抽中冷小概率抽到别的字随机采样输出文本完整生成整条回答的流程逐 token 循环输入 prompt今天天气很Actor (π) 算出所有 token 概率分布按概率随机采样 1 个 token比如抽到好把今天天气很好拼接成新上下文再丢回 Actor重复步骤 2-4不断采样下一个字直到生成结束标记完整回答就出来了为什么 RL/PPO 不能直接贪心选最高概率如果每次固定选概率最高 token回答会千篇一律缺乏多样性强化学习需要多条不同回答样本送入 RM 打分才能计算奖励、更新模型公式里的期望 Ea~π本质就是对「所有可能采样出来的回答」算平均收益只有随机采样才能模拟这个期望状态价值贝尔曼方程γ 国际音标/ˈɡæmə/中文标准读法伽马动作价值Q贝尔曼方程在状态 s 做出动作 a 的长期预期总回报执行 a 拿到的即时奖励加上 γ 折扣后的「下一状态 s’ 能取到的最优长期回报」再对所有可能出现的下一状态 s’ 做概率平均 E最优贝尔曼方程是 Q-learning 这类强化学习算法的核心它假设从下一步开始全程都用最棒的策略决策示例V 和 Q 的区别其他补充总结贝尔曼方程就是把 “短期收益” 和 “长期未来收益” 绑定在一起让模型不只看眼前奖励学会长远最优决策

新闻详情

相关阅读

深入解析TipDM大数据挖掘建模平台：从拖拽式可视化建模、全生命周期管理到产学研一体化应用的实战指南

Affinity Matrix 构建实战：3种相似度度量（Cosine/Jaccard）对比与 Scikit-learn 实现

人工智能模型部署与推理服务性能调优

【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架 ----（3）算法篇（RLPD）

AntiDupl.NET：智能图片去重工具，3步拯救你的数字存储空间

卖银鳞胸甲的D61

【Bug已解决】Codex CLI 报错 model not found / unsupported model 解决方案

Linux Command：600 多条命令的速查手册

影刀RPA+AI，自动化的最终解决方案

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！