动态规划求解MDP(基于贝尔曼方程)
作者:互联网
动态规划求解MDP(基于贝尔曼方程)
一、策略迭代法
1. 策略评估
基于贝尔曼方程的动态规划迭代:
基本思想:在当前策略Pi下,初始化值函数V0,用当前策略和前Vk来更新Vk+1,直至Vk+1收敛
2. 策略改进
a
−
n
e
w
=
arg
max
a
Q
π
(
s
,
a
)
a_{-} n e w=\arg \max _{a} Q_{\pi}(s, a)
a−new=argamaxQπ(s,a)
基于贪心法来优化策略,即把有最大回报的行为来更新对应的策略Pi(a|s),当然,因为是贪心策略,概率为1,有些时候回报相同时,概率为均匀分布。
流程:评估-改进-评估-改进-直到策略收敛。
两种方法:
1)一次评估收敛后改进一次;
2)一次评估后就改进,评估和策略最终一起收敛(优);
二、值迭代
值迭代的流程和策略迭代类似,采用的是较优方法2),即边评估边改进。
与策略迭代不同的是,评估中,值函数V用当前策略下的最大行为值函数Q来迭代更新,于此同时便自动改进了策略(就是最大的行为值函数Q对应的行为a)。注:策略就是一系列行为的概率
标签:策略,迭代,求解,Vk,改进,贝尔曼,MDP,评估 来源: https://blog.csdn.net/ggjkd/article/details/114631686