科研 |知识 |母婴 |养生 |美食 |幼教 |高考 |大学 |就业 |锐评 |培训 |数码 |互联网 |名企 |IT业 |能源

当前位置：首页> 健康> 科研 > 常州建站程序_怎么做网页代理_谷歌排名_sem竞价代运营

常州建站程序_怎么做网页代理_谷歌排名_sem竞价代运营

时间:2025/8/26 2:05:02来源：https://blog.csdn.net/weixin_61426225/article/details/143071039 浏览次数:0次

常州建站程序_怎么做网页代理_谷歌排名_sem竞价代运营

state: $\quad status \quad of \quad agent \quad with \quad respect \quad to \quad the \quad environment$ (agent 相对于环境的状态)

对于下面的网格地图来说： $s t a t e$ 就相当于$ location $,用 $s_1、s_2、...、s_9$ 来表示

state space： $\quad set \quad of \quad all \quad state \quad S = \{s_i\}_{i=1}^{9}$ 状态空间,把所有 $s t a t e$ 放在一起得到的集合就是 $\quad space$

Action: $\quad each \quad state, \quad there \quad are \quad five \quad possible \quad actoin: a_1、a_2、a_3、a_4、a_5$

Action space of a state: $\quad set \quad of \quad all possible actions \quad of \quad a \ quad state$

$A(s_i) = \{a_i\}_{i=1}^{5}$

state transition: 当采取了一个 $a c t i o n$ 后， $a g e n t$ 从一个 $s t a t e$ 转移到另一个 $s t a t e$ ,这样一个过程佳作 $\quad transition$

$\quad transition$ 定义一种 $a g e n t$ 和 $e n v i ro nm e n t$ 交互的行为

Forbidden area:有两种情况，一种是forbidden are可以到达，但是会得到相应的惩罚，另一种是forbidden area不可到达，相当于有一堵墙。

Tabular representation:可以用表格来描述state transition

只能能表示确定的情况

相比于上面的表格，更一般的做法是使用下面这种方法

state transition probability:使用概率来描述state transition

Policy：告诉agent在一个状态应该采取什么动作

$\pi$ 在强化学习中用来表示条件概率，而不是圆周率
上面图片中的情况是确定性的策略，同时也有不确定的策略

Reward:reward是action采取一个action后得到的实数，一个正的reward代表鼓励采取这样的action，一个负的reward代表惩罚这样的action。

reward可以理解成一个 $\quad interface$ ,我们人类和机器交互的一个接口

reward依赖于当前的 $s t a t e 和采取的 a c t i o n$ 而不是依赖于接下来的 $s t a t e$

trajectory:是一个 $s t a t e - a c t i o n - re w a r d$ chain

Return:沿着trajectory，所有的reward相加得到得就是return

return的作用可以用来评估一个策略的好坏

discount return:

从上图可以看到上面的trajectory是无限长的，对应的return是发散的。

为了解决这个问题引入一个 $\quad rate \quad \gamma \in [0, 1)$

上面的return就可以用discount return来表示

$discount return = 0 + \gamma * 0 + {\gamma^2} * 0 + {\gamma^3} * 1 + {\gamma^4} * 1 + … $

$\gamma^3(1 + \gamma + \gamma^2 + \gamma^3 + ...)$

$\gamma^3(\frac{1}{1 - \gamma})$

episode\trial:一个有限步的trajectory被称为episode，也就是有terminal states的trajectory。

可以采用方法将episodic转化为continue的，在terminal state时无论采取什么action都会回到terminal state。

MDP:Markov decision process,马尔可夫决策过程是一个框架framework

一个马尔可夫决策过程中有很多关键的元素：

set:

State:
Action
Reward

Probability distribution:

State transition probability:在一个状态s，采取action a，转移到状态 $s^{'}$ 的概率 $p(s^{'}|s,a)$
Reward probability:在状态s，采取action a，得到reward r的概率 $p (r ∣ s, a)$

Policy:
在状态s,采取action a的概率 $\pi(a|s)$

Markov property:memoryless property

关键字：常州建站程序_怎么做网页代理_谷歌排名_sem竞价代运营

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：

>> 相关文章

>> 热门图片

游戏软件公司_杭州公司摇号需要哪些资格条件_怎么在百度做宣传广告_网站建设seo优化培训

游戏软件公司_杭州公司摇号需要哪些资格条件_怎么在百度做宣传广告_网站建设seo优化培训

线上推广方案模板_长沙马拉松调整为线上赛_qq空间秒赞秒评网站推广_站长工具seo综合查询降级

线上推广方案模板_长沙马拉松调整为线上赛_qq空间秒赞秒评网站推广_站长工具seo综合查询降级

百度网页版官方_网页制作基础教程期末考试_外贸网站建设公司_北京网站sem、seo

百度网页版官方_网页制作基础教程期末考试_外贸网站建设公司_北京网站sem、seo

移动网站建设的前期规划内容_王爷家的小蛮妃_友情链接交换_服装品牌营销策划方案

移动网站建设的前期规划内容_王爷家的小蛮妃_友情链接交换_服装品牌营销策划方案

网站推广方法有哪些_中国机械加工网址_seo综合查询站长工具关键词_seo网络推广技术

网站推广方法有哪些_中国机械加工网址_seo综合查询站长工具关键词_seo网络推广技术

网站制作报价被哪些因素影响_深圳哪些建设公司招聘_关键词seo报价_seo公司软件

网站制作报价被哪些因素影响_深圳哪些建设公司招聘_关键词seo报价_seo公司软件

建设工程司法解释(一)_web前端开发设计_荆州百度推广_百度一下首页手机版

建设工程司法解释(一)_web前端开发设计_荆州百度推广_百度一下首页手机版

中国建设银行app下载安卓版_未来网络设计蓝图_达内教育_真正免费的网站建站平台推荐

中国建设银行app下载安卓版_未来网络设计蓝图_达内教育_真正免费的网站建站平台推荐

>> 热门搜索

评论排行

图片新闻

常州建站程序_怎么做网页代理_谷歌排名_sem竞价代运营

系统架构设计师①：计算机组成与体系结构

NSSCTF练习记录：[SWPUCTF 2021 新生赛]include

台州自助建站公司_手机网站设计欣赏_职业技能培训网上平台_关键词排名优化

点击排行