小默说AI(21)强化学习前菜——让模型学会“奖励与惩罚“

📅 2026/6/28 3:26:05
小默说AI(21)强化学习前菜——让模型学会“奖励与惩罚“
强化学习前菜——让模型学会"奖励与惩罚"上集我们讲了微调,让模型从基础课走向专业课。但有一个前提条件:需要有"标准答案"。生活中有很多任务没有唯一正确答案,这时候就该强化学习登场了。强化学习(Reinforcement Learning)是机器学习的三大范式之一,与监督学习、无监督学习并列。如果说监督学习是"老师告诉你对错",那强化学习就是"走对了鼓掌,走错了扶一下,模型自己慢慢学会"。它不需要标准答案,只给奖励信号,让模型通过试错来学习如何做出最优决策。今天这集,小默带你搞懂强化学习的核心概念:智能体、环境、奖励信号和策略梯度,为后续学习RLHF和PPO算法打下基础。一、从监督学习到强化学习:两种范式的根本区别要理解强化学习,最直接的方式是与监督学习做对比。监督学习的核心逻辑是:给出标准答案,让模型学习"正确的输出"。在分类任务中,我们给模型带标签的数据,告诉它每条数据属于哪个类别。在指令微调中,我们给出指令和对应的期望回答,让模型学会如何按照指令生成文本。监督学习的关键特征是:训练数据中每一条样本都有明确的、唯一的正确答案。这就像老师批改作业——老师告诉你每一步怎么写,答案是什么。模型通过最小化预测输出与标准答案之间的差距来学习,目标函数通常是交叉熵损失或均方误差。但很多现实任务并不具备这个条件。想象一个对话系统。用户说"给我讲个笑话",模型需要生成一个有趣的回应。什么样的回答算"好"?什么样的算"不好"?这没有唯一的标准答案。再比如,设计一个游戏AI。它需要在复杂的环境中学会策略来赢得比赛。游戏没有告诉它"每一步应该怎么走",它需要通过不断尝试,根据最终的结果来判断哪些策略是好的。这就是强化学习的用武之地。强化学习不给标准答案,只给奖励信号。走对了鼓掌,走错了扶一下,模型自己慢慢学会。核心区别总结:监督学习学"正确答案",强化学习追求"做得更好"。二、强化学习的四大核心要素强化学习有一套完整的形式化框架,包含四个核心要素:智能体(Agent)、环境(Environment)、状态(State)、动作(Action),以及贯穿其中的奖励信号(Reward)。智能体(Agent)是做出决策的主体。在对话场景中,智能体就是大语言模型本身。它负责观察环境的状态,并基于当前策略选择动作。环境(Environment)是智能体交互的外部世界。在对话场景中,环境包括用户的输入、对话的历史上下文,以及用户反馈(点赞、评分等)。状态(State)是当前环境的状况。在对话场景中,状态可以理解为当前的对话上下文——包括之前