首页 > TAG信息列表 > muzero
Online and Offline Reinforcement Learning by Planning with a Learned Model
发表时间:2021 文章要点:文章接着muzero做的,当时muzero里面提出了一个MuZero Reanalyze(Reanalyse)的方式,这篇文章提出的MuZero Unplugged算法其实就是把MuZero Reanalyse用到offline RL里面。作者想说的就是这个方法不仅可以用在online RL上,在offline RL上同样表现很好,相当于一个算MuZero:用学习模型规划MuZero玩转雅达利、围棋、国际象棋和日本将棋
Karen Simonyan, 1 ∗ ^{1*} 1∗ Laurent Sifre,2021-2-08 tensorflow2.0 Muzero
参考资料: [1]ColinFred. 蒙特卡洛树搜索(MCTS)代码详解【python】. 2019-03-23 23:37:09. [2]饼干Japson 深度强化学习实验室.【论文深度研读报告】MuZero算法过程详解.2021-01-19. [3]Tangarf. Muzero算法研读报告. 2020-08-31 11:40:20 . [4]带带弟弟好吗. AlphaGo版本三—