强化学习笔记4--actor critic
作者:互联网
本文章为学习李宏毅老师视频的学习笔记,视频链接
采样会导致不稳定,直接估计G的期望值,用期望值代替sample的值
状态值函数与状态动作值函数,estimate value function --> TD比较稳,MC比较精确
V
π
(
θ
)
(
s
t
n
)
V^{\pi(\theta)}(s_t^n)
Vπ(θ)(stn)是
Q
π
(
θ
)
(
s
t
n
,
a
t
n
)
Q^{\pi(\theta)}(s_t^n,a_t^n)
Qπ(θ)(stn,atn)的期望
AC
A3C
22:19然后也就没听了,下次见家人们
标签:--,stn,期望值,actor,学习,critic,theta,pi 来源: https://blog.csdn.net/qq_41537299/article/details/120839684