首页 > 其他分享> > OFF-POLICY ACTOR-CRITIC WITH SHARED EXPERIENCE REPLAY（LASER）

OFF-POLICY ACTOR-CRITIC WITH SHARED EXPERIENCE REPLAY（LASER）

2021-07-21 14:02:13 作者：互联网

发表时间：2019
文章要点：这篇文章主要想把actor-critic方法里面加个replay buffer来提高采样效率。先是分析了把actor-critic变成off-policy的过程中需要做的修正，主要是importance sampling和V-trace，以及即使这样也会产生误差。然后就说把off-policy的数据混合on-policy的数据一起训练会环节这个问题，并在此基础上还加了个trust region的限制。最后混在一起成了个off-policy actor-critic方法。
总结：感觉有点大杂烩的感觉，以后要是想总结一下importance sampling这一系列的改进，可以再回过头来看看。但是看图里的曲线，特别是和baseline对比的曲线，几乎没有任何提升，貌似没啥用。可能这也是这个算法没啥名气的原因吧。
疑问：证明没有细看，其实还是底子不够，看一眼不知道在证个啥。

标签：LASER,importance,off,EXPERIENCE,sampling,critic,actor,policy,OFF
来源： https://www.cnblogs.com/initial-h/p/15039159.html