当前位置: 首页> 汽车> 报价 > 网站设计制作花多少钱_广告投放面试_品牌运营管理公司_石家庄百度推广优化排名

网站设计制作花多少钱_广告投放面试_品牌运营管理公司_石家庄百度推广优化排名

时间:2025/7/14 2:25:14来源:https://blog.csdn.net/m0_56569131/article/details/145905984 浏览次数: 0次
网站设计制作花多少钱_广告投放面试_品牌运营管理公司_石家庄百度推广优化排名

        如图1所示,强化学习中的智能体与环境通过交互进行学习。智能体根据环境的状态采取相应的动作,并将该动作反馈给环境。环境接收智能体的动作后,进入下一个状态,并将新的状态传递给智能体。这个交互过程可用马尔可夫决策过程(Markov Decision Process, MDP)来描述,因此 MDP 是强化学习的基本框架。

1  智能体与环境之间的交互 

        在介绍马尔可夫决策过程之前,我们先介绍其简化版本:马尔可夫过程(Markov Process, MP)和马尔可夫奖励过程(Markov Reward Process, MRP),通过对比它们,可以更直观地理解 MDP。随后,我们将讨论马尔可夫决策过程中的策略评估(policy evaluation),即在给定策略的情况下,如何计算其价值函数。接着,我们介绍 MDP 的控制方法,包括策略迭代(policy iteration)和价值迭代(value iteration)两种算法。此外,在 MDP 中,环境是完全可观测的,但在许多实际应用中,部分环境变量可能不可观测,这类问题仍然可以转换为 MDP 进行求解。

1、马尔可夫过程

1.1、马尔可夫性质

        马尔可夫性质描述了一个随机过程的时间演化特性。如果一个随机过程满足马尔可夫性质,则在给定当前状态的情况下,其未来状态的条件概率分布 仅依赖于当前状态,而与过去状态无关。用数学语言表示,即对于离散时间随机过程 X_0, X_1, \dots, X_T​,如果它满足:

那么它具有马尔可夫性质。

        这里,X_0:t代表从初始状态到当前时刻 t 的所有状态集合,X_0:t是对应的具体状态序列。这个公式的含义是:给定当前状态 X_t​ 后,未来状态 X_{t+1}​ 的概率分布不依赖于更早的历史状态,只由当前状态 X_t​ 决定。

        换句话说,未来的状态转移只取决于当前状态,而与过去状态无关。马尔可夫性质是所有马尔可夫过程(Markov Process, MP)的基础,也是马尔可夫决策过程(Markov Decision Process, MDP)等强化学习算法的理论支撑。

可以用现实中的例子来理解马尔可夫性质:

(1) 例子 1:天气变化

假设一个城市的天气只有 晴天(Sunny)、阴天(Cloudy)、雨天(Rainy) 三种状态,并且天气的变化仅与当前天气有关,而与更早的天气无关。

  • 如果今天是晴天(Sunny),那么明天可能仍然是晴天,也可能变成阴天或雨天。
  • 如果今天是阴天(Cloudy),那么明天可能继续是阴天,也可能变成晴天或雨天。
  • 如果今天是雨天(Rainy),那么明天可能仍然下雨,也可能变成阴天或晴天。

假设天气的转移概率如下:

这里的关键是:明天的天气状态只与今天的天气相关,而与前天、甚至更早的天气无关,这正是马尔可夫性质的体现。

(2) 例子 2:棋盘游戏

在棋盘游戏中,假设一个棋子在棋盘上的位置可以表示为状态 X_t,玩家每回合掷骰子决定下一步行动。

  • 如果棋子的当前状态是 X_t,那么下一步 X_{t+1}​ 的位置只取决于当前状态 X_t 和骰子的结果,而不取决于棋子过去的历史位置X_0, X_1, \dots, X_{t-1}
  • 换句话说,未来的棋盘位置只取决于当前棋盘状态,而不会受到更早历史状态的影响。

(3) 例子 3:股市价格

在某些情况下,股票价格的变化也被假设为马尔可夫过程。例如,在简化的 随机游走模型(Random Walk Model) 中,股票价格的变动仅依赖于当前价格,而不会受到过去价格历史的直接影响(即没有长时记忆效应)。如果当前股价为 S_t​,那么下一时刻的股价 S_{t+1}​ 只取决于 S_t,而不会受到 S_{t-1}, S_{t-2}, \dots 的影响。

1.2、马尔可夫链

离散时间的马尔可夫过程 也称为马尔可夫链

马尔可夫链是最简单的马尔可夫过程,它的状态空间是有限的,即只有有限个状态之间的转移。

示例:状态转移

如图2所示,假设有 4 个状态 s_1, s_2, s_3, s_4,它们的转移概率如下:

  • s_1​ 处于当前状态时:
    • 以 0.1 的概率保持在 s_1
    • 以 0.2 的概率转移到 s_2
    • 以 0.7 的概率转移到 s_4
  • s_4​ 处于当前状态时:
    • 以 0.3 的概率转移到 s_2
    • 以 0.2 的概率转移到 s_3
    • 以 0.5 的概率保持在 s_4

2  马尔可夫链示例 

马尔可夫链的状态转移可用**状态转移矩阵(State Transition Matrix, P)**描述: 

状态转移矩阵的特点:

  • 每一行表示从某个状态出发,到所有状态的转移概率

  • 每一行的概率之和为 1,即: \sum_{j} p(s_j | s_i) = 1

 

关键字:网站设计制作花多少钱_广告投放面试_品牌运营管理公司_石家庄百度推广优化排名

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: