如图1所示,强化学习中的智能体与环境通过交互进行学习。智能体根据环境的状态采取相应的动作,并将该动作反馈给环境。环境接收智能体的动作后,进入下一个状态,并将新的状态传递给智能体。这个交互过程可用马尔可夫决策过程(Markov Decision Process, MDP)来描述,因此 MDP 是强化学习的基本框架。
图 1 智能体与环境之间的交互
在介绍马尔可夫决策过程之前,我们先介绍其简化版本:马尔可夫过程(Markov Process, MP)和马尔可夫奖励过程(Markov Reward Process, MRP),通过对比它们,可以更直观地理解 MDP。随后,我们将讨论马尔可夫决策过程中的策略评估(policy evaluation),即在给定策略的情况下,如何计算其价值函数。接着,我们介绍 MDP 的控制方法,包括策略迭代(policy iteration)和价值迭代(value iteration)两种算法。此外,在 MDP 中,环境是完全可观测的,但在许多实际应用中,部分环境变量可能不可观测,这类问题仍然可以转换为 MDP 进行求解。
1、马尔可夫过程
1.1、马尔可夫性质
马尔可夫性质描述了一个随机过程的时间演化特性。如果一个随机过程满足马尔可夫性质,则在给定当前状态的情况下,其未来状态的条件概率分布 仅依赖于当前状态,而与过去状态无关。用数学语言表示,即对于离散时间随机过程 ,如果它满足:
那么它具有马尔可夫性质。
这里,代表从初始状态到当前时刻
的所有状态集合,
是对应的具体状态序列。这个公式的含义是:给定当前状态
后,未来状态
的概率分布不依赖于更早的历史状态,只由当前状态
决定。
换句话说,未来的状态转移只取决于当前状态,而与过去状态无关。马尔可夫性质是所有马尔可夫过程(Markov Process, MP)的基础,也是马尔可夫决策过程(Markov Decision Process, MDP)等强化学习算法的理论支撑。
可以用现实中的例子来理解马尔可夫性质:
(1) 例子 1:天气变化
假设一个城市的天气只有 晴天(Sunny)、阴天(Cloudy)、雨天(Rainy) 三种状态,并且天气的变化仅与当前天气有关,而与更早的天气无关。
- 如果今天是晴天(Sunny),那么明天可能仍然是晴天,也可能变成阴天或雨天。
- 如果今天是阴天(Cloudy),那么明天可能继续是阴天,也可能变成晴天或雨天。
- 如果今天是雨天(Rainy),那么明天可能仍然下雨,也可能变成阴天或晴天。
假设天气的转移概率如下:
这里的关键是:明天的天气状态只与今天的天气相关,而与前天、甚至更早的天气无关,这正是马尔可夫性质的体现。
(2) 例子 2:棋盘游戏
在棋盘游戏中,假设一个棋子在棋盘上的位置可以表示为状态 ,玩家每回合掷骰子决定下一步行动。
- 如果棋子的当前状态是
,那么下一步
的位置只取决于当前状态
和骰子的结果,而不取决于棋子过去的历史位置
。
- 换句话说,未来的棋盘位置只取决于当前棋盘状态,而不会受到更早历史状态的影响。
(3) 例子 3:股市价格
在某些情况下,股票价格的变化也被假设为马尔可夫过程。例如,在简化的 随机游走模型(Random Walk Model) 中,股票价格的变动仅依赖于当前价格,而不会受到过去价格历史的直接影响(即没有长时记忆效应)。如果当前股价为 ,那么下一时刻的股价
只取决于
,而不会受到
的影响。
1.2、马尔可夫链
离散时间的马尔可夫过程 也称为马尔可夫链。
马尔可夫链是最简单的马尔可夫过程,它的状态空间是有限的,即只有有限个状态之间的转移。
示例:状态转移
如图2所示,假设有 4 个状态 ,它们的转移概率如下:
处于当前状态时:
- 以 0.1 的概率保持在
- 以 0.2 的概率转移到
- 以 0.7 的概率转移到
- 以 0.1 的概率保持在
处于当前状态时:
- 以 0.3 的概率转移到
- 以 0.2 的概率转移到
- 以 0.5 的概率保持在
- 以 0.3 的概率转移到
图 2 马尔可夫链示例
马尔可夫链的状态转移可用**状态转移矩阵(State Transition Matrix, P)**描述:
状态转移矩阵的特点:
-
每一行表示从某个状态出发,到所有状态的转移概率
-
每一行的概率之和为 1,即: