首页 > 其他分享> > Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

2022-02-10 07:00:28 作者：互联网

发表时间：2018 (NeurIPS 2018)
文章要点：这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法，主要用来自适应选择不同horizon的rollout的权重，从而在target value和model error之间做trade off。
具体的，就是在算target value的时候，你可以算1-step，2-step甚至n-step，然后给这些target 加权，肯定比TD(1)要稳健。所以我们可以用学到的model来rollout轨迹，然后用来算这些target。但是问题是model是imperfect的，所以我们需要确定每个target的权重，越准确的估计应该给更大的权重。之前MVE没有考虑这个权重的问题，直接算的固定的horizon

这里具体做法就是去学很多个Q function，reward function和model，这样在每个model里面做rollout，就可以得到相同轨迹的多个估计，然后根据这些值的方差来给权重。方差越大，说明这些地方uncertainty越大，就给小的权重。具体给法是inverse variance weighting，根据方差的倒数来给权重

然后就结束了。
总结：法是make sense的，就是感觉这种ensemble的方式计算量太大了。
疑问：这个STEVE里面horizon的最大值只设置为5，会不会太小了点。
后面作者比较wall-clock时间的时候，STEVE用了并行的方式，还多用了一块P100，感觉不太公平啊。

标签：STEVE,target,权重,Efficient,Reinforcement,Sample,step,value,model
来源： https://www.cnblogs.com/initial-h/p/15877640.html