首页 > 其他分享> > Forward-Backward Reinforcement Learning

Forward-Backward Reinforcement Learning

2022-04-03 13:34:05 作者：互联网

发表时间：2018
文章要点：这篇文章提出了Forward-Backward Reinforcement Learning (FBRL)算法，在假设reward function和goal已知的情况下，将model free的forward step和model based的backward step结合起来，提升训练效果。
具体的，训练一个反向模型，用\(s_{t+1},a_t\)预测\(s_t\)，具体做法是去预测两个状态的差值

然后状态预测表示为

Loss用的Huber loss。有了model之后，结合DDQN算法，model free收集真实环境的forward step样本，model based收集model输出的backward step的样本，然后一起训练RL。
总结：思路主要是做data augmentation，然后不同点在于model based的用法，从goal出发来增加样本，而不是从starting point开始，对于稀疏回报场景下会比较好。不过文章也说了，刚开始model不准确，那些goal出发的样本不准确。不过文章也说了，这也许可能某种程度上增加探索，这点其实不是很make sense。
疑问：无。

标签：based,goal,样本,step,Learning,Forward,model,Backward
来源： https://www.cnblogs.com/initial-h/p/16095688.html