其他分享
首页 > 其他分享> > 强化学习PARL——5. 基于连续动作空间上方法求解RL

强化学习PARL——5. 基于连续动作空间上方法求解RL

作者:互联网

在这里插入图片描述
个人理解:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里一共有四个网络,Q网络以及它的target_Q网络,策略网络以及它的target_P网络,两个target是为了稳定计算,每隔一段时间复制一下参数,投入到评估网络使用。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
DQN里是硬更新,每次直接把 Q w Q_w Qw​网络的所有参数全部给 Q w ˉ Q_{\bar{w}} Qwˉ​, μ θ \mu_{\theta} μθ​同理。
而DDPG采取的是一种更为平滑的方式,软更新,每次只更新一点点。如公式所示,用了一个 τ \tau τ,来控制每次 w w w或者 θ \theta θ更新的幅度。

也是为了让Q网络这个参数的更新更加稳定(属于工程/代码上的一种小trick吧)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

https://github.com/PaddlePaddle/RLSchool也是百度做的一个环境,目前暂时只有电梯环境和四轴飞行器这两个环境。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

标签:bar,target,Qw,求解,PARL,网络,更新,RL,theta
来源: https://blog.csdn.net/Castlehe/article/details/112859307