编程语言
首页 > 编程语言> > DDPG深度确定性策略梯度算法概述

DDPG深度确定性策略梯度算法概述

作者:互联网

DDPG(Deep Deterministic Policy Gradient)是连续控制领域的经典强化学习算法,是结合PG和DQN的一种off-policy方法。

可以看作是DQN的改进,在DQN的Q网络基础上引入Actor网络预测一个使Q值最大的动作值,从而能够应对连续动作空间,且使用了DQN中的目标网络和经验复现技巧。

Deep指深度网络,Deterministic指确定性策略也就是Actor输出的是一个动作值而不是动作概率分布,虽然叫Policy Gradient但却是AC架构。

1. Critic网络

2. Actor网络

3. 主要技巧

4. 补充

图片来源:

https://blog.csdn.net/hezzfew/article/details/109534023

https://zhuanlan.zhihu.com/p/84321382

 

 

 

 

 

 

 

 

标签:采样,输出,动作,梯度,网络,Actor,算法,DQN,DDPG
来源: https://blog.csdn.net/wxq1999/article/details/120241999