其他分享
首页 > 其他分享> > Actor-Critic

Actor-Critic

作者:互联网

文章目录

Actor-Critic

演员-评论家算法(Actor-Critic Algorithm)是一种结合policy basedvalue based的强化学习方法,其中:

Review: Policy Gradient & Q-learning

在这里插入图片描述

g r a d i e n t   f o r   u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ l o g p θ ( a t n ∣ s t n ) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (\sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b) \nabla logp_\theta(a_t^n \mid s_t^n) gradient for update=∇θ​Rθ​≈N1​n=1∑N​t=1∑Tn​​(t′=t∑Tn​​γt′−trt′n​−b)∇logpθ​(atn​∣stn​)

G t n ≜ ∑ t ′ = t T n γ t ′ − t r t ′ n G_t^n \triangleq \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n Gtn​≜t′=t∑Tn​​γt′−trt′n​

G t n G_t^n Gtn​ 代表的是从t时刻开始discount后的奖励,因为 r n r^n rn是一个随机变量,所以 G t n G_t^n Gtn​ 的方差会很大。方差大就会导致在训练的过程中sample到的有限的 G t n G_t^n Gtn​​ 是比较没有代表性的,那产生的误差就会比较大。另外据Q- function的定义易得:
E ⁡ [ G t n ] = Q π θ ( s t n , a t n ) \operatorname{E}[G_t^n] = Q^{\pi_\theta}(s_t^n,a_t^n) E[Gtn​]=Qπθ​(stn​,atn​)

替换完得到下式:
g r a d i e n t   f o r   u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( Q π θ ( s t n , a t n ) − V π θ ( s t n ) ) ∇ l o g p θ ( a t n ∣ s t n ) (1) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(Q^{\pi_\theta}(s_t^n,a_t^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{1} gradient for update=∇θ​Rθ​≈N1​n=1∑N​t=1∑Tn​​(Qπθ​(stn​,atn​)−Vπθ​(stn​))∇logpθ​(atn​∣stn​)(1)

Advantage Actor-Critic(A2C)

为什么叫 Advantage?因为 a d v a n t a g e f u n c t i o n = ∑ t ′ = t T n γ t ′ − t r t ′ n − b advantage function = \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b advantagefunction=∑t′=tTn​​γt′−trt′n​−b​​

因为 Q π ( s t n , a t n ) = E ⁡ [ r t n + γ V π ( s t + 1 n ) ] = r t n + γ V π ( s t + 1 n ) Q^\pi(s_t^n,a_t^n) = \operatorname{E}[r_t^n + \gamma V^\pi(s_{t+1}^n)] = r_t^n + \gamma V^\pi(s_{t+1}^n) Qπ(stn​,atn​)=E[rtn​+γVπ(st+1n​)]=rtn​+γVπ(st+1n​)​​​​​ (去掉期望值并且都换成V是paper实验里面验证的)代入(1)式,得:
g r a d i e n t   f o r   u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( r t n + γ V π ( s t + 1 n ) − V π θ ( s t n ) ) ∇ l o g p θ ( a t n ∣ s t n ) (2) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(r_t^n + \gamma V^\pi(s_{t+1}^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{2} gradient for update=∇θ​Rθ​≈N1​n=1∑N​t=1∑Tn​​(rtn​+γVπ(st+1n​)−Vπθ​(stn​))∇logpθ​(atn​∣stn​)(2)
img

tips for A2C

在这里插入图片描述

Asynchronous Advantage Actor-Critic(A3C)

在这里插入图片描述

Pathwise Derivative Policy Gradient

这个方法可以看成是 Q-learning 解连续动作的一种特别的方法,也可以看成是一种特别的 Actor-Critic 的方法。

特点:Pathwise Derivative Policy Gradient 中的 critic 会直接告诉 actor 不仅会评价动作的好坏,还会告诉我们做什么样的动作才可以得到比较大的 value。

在这里插入图片描述

Algorithm

在这里插入图片描述

相比于Q-learning,有四处变化:

  1. 收集数据时,不再根据 Q 选取动作,而是用 π \pi π​​​ 来决定选取的动作
  2. target network 里面输入 s t + 1 s_{t+1} st+1​​ 后的动作选取不是看哪个动作带来的 Q ^ \widehat{Q} Q ​​ 最大,而是直接根据 π ^ \widehat{\pi} π ​ 选取action
  3. 比 Q-learning 多更新一个网络 π \pi π​ ,并且更新的目标是为了Q最大化
  4. C步之后,多了一个 π ^ \widehat{\pi} π 的参数置为和训练网络一

标签:stn,nabla,Actor,Critic,theta,pi,sum
来源: https://blog.csdn.net/zzping01/article/details/120354379