其他分享
首页 > 其他分享> > 动态规划求解MDP(基于贝尔曼方程)

动态规划求解MDP(基于贝尔曼方程)

作者:互联网

动态规划求解MDP(基于贝尔曼方程)

一、策略迭代法

1. 策略评估

基于贝尔曼方程的动态规划迭代:
在这里插入图片描述

基本思想:在当前策略Pi下,初始化值函数V0,用当前策略和前Vk来更新Vk+1,直至Vk+1收敛

2. 策略改进

a − n e w = arg ⁡ max ⁡ a Q π ( s , a ) a_{-} n e w=\arg \max _{a} Q_{\pi}(s, a) a−​new=argamax​Qπ​(s,a)
在这里插入图片描述

基于贪心法来优化策略,即把有最大回报的行为来更新对应的策略Pi(a|s),当然,因为是贪心策略,概率为1,有些时候回报相同时,概率为均匀分布。
流程:评估-改进-评估-改进-直到策略收敛。
两种方法
1)一次评估收敛后改进一次;
2)一次评估后就改进,评估和策略最终一起收敛();

二、值迭代

值迭代的流程和策略迭代类似,采用的是较优方法2),即边评估边改进。
与策略迭代不同的是,评估中,值函数V用当前策略下的最大行为值函数Q来迭代更新,于此同时便自动改进了策略(就是最大的行为值函数Q对应的行为a)。注:策略就是一系列行为的概率
在这里插入图片描述

标签:策略,迭代,求解,Vk,改进,贝尔曼,MDP,评估
来源: https://blog.csdn.net/ggjkd/article/details/114631686