其他分享
首页 > 其他分享> > 强化学习之贝尔曼方程 8

强化学习之贝尔曼方程 8

作者:互联网

在上一次的状态价值函数图中,对于每一个方格我们不比从头开始计算每一个值,如下图
在这里插入图片描述
如果我们想知道某一状态的值可以用接下来的一个状态的折扣值(图中为1)+ 立刻的回报。
在这里插入图片描述
这个就是贝尔曼预期方程
在这里插入图片描述
代表着我们可以将马尔科夫决策过程任何状态的值表示为,即时奖励和下个状态的折扣值。
在这里插入图片描述
如果帮到你在这里插入图片描述

标签:状态,方程,折扣,图中,贝尔曼,帮到,强化
来源: https://blog.csdn.net/weixin_43236007/article/details/89294327