首页 > 编程语言> > DDPG深度确定性策略梯度算法概述

DDPG深度确定性策略梯度算法概述

2021-09-11 19:57:49 作者：互联网

DDPG(Deep Deterministic Policy Gradient)是连续控制领域的经典强化学习算法，是结合PG和DQN的一种off-policy方法。

可以看作是DQN的改进，在DQN的Q网络基础上引入Actor网络预测一个使Q值最大的动作值，从而能够应对连续动作空间，且使用了DQN中的目标网络和经验复现技巧。

Deep指深度网络，Deterministic指确定性策略也就是Actor输出的是一个动作值而不是动作概率分布，虽然叫Policy Gradient但却是AC架构。

随机性策略：输出动作的概率分布，再从中采样得到动作。最后一层通常用Softmax，之后用Categorical分布采样（如果只有两个动作也可以不用softmax，直接输出其中一个动作的概率，之后用Bernoulli分布采样）。
确定性策略：输出一个动作。同样的state必然输出同样的action。最后一层通常用双曲正切函数tanh映射到(-1, 1)，之后再根据实际动作取值范围进行scale。
伪代码中两个目标网络更新公式里的tao，以及actor和critic各自的学习率，都可以调整

图片来源：

https://blog.csdn.net/hezzfew/article/details/109534023

https://zhuanlan.zhihu.com/p/84321382

标签：采样,输出,动作,梯度,网络,Actor,算法,DQN,DDPG
来源： https://blog.csdn.net/wxq1999/article/details/120241999