首页 > 其他分享> > Learning and Planning in Complex Action Spaces

Learning and Planning in Complex Action Spaces

2021-08-19 02:31:45 作者：互联网

发表时间：2021
文章要点：文章想说，在动作空间很大或者连续的时候，想要枚举所有动作来做MCTS是不现实的。作者提出了sample-based policy iteration framework，通过采用的方式来做MCTS（Sampled MuZero）。大概思路就是说，在MCTS里面扩展动作的时候，并不枚举所有动作，而是取一个动作子集来作为备选集合，搜索就限制在这个集合里。其实思路就是这样简单，后面作者就说了很多理论的东西，大概就是想说虽然我是采样的方式来planning的，但是我这个方式是有收敛保证的，只要随着采样动作数量K趋近无穷，那么这个sample-based policy improvement operator就依分布收敛到true policy improvement operator。这个其实有点废话了，趋近无穷不就是全扩展的MCTS了。不过回过头来说这个问题，如果采样动作K远小于总的动作N，会不会学到好的策略呢？作者的结果是说完全可以，那这个怎么理解呢？这里有个隐晦的点我感觉是这样的，虽然每次在每个节点上都只采样了K个动作来做MCTS，但是不同的节点，以及每次新建一个search tree的时候，每次采样的K个动作都是不一样的。所以随着policy network和value network的更新，再加上随机探索的噪声，其实每个动作都有机会被采到，只是不是出现在同一次MCTS中的同一个节点罢了。感觉这才是这篇文章work的关键，既省了算力，同时还work。同时还有一个关键点在于，最优策略应该是确定性策略，所以最终一个节点只要有一个动作就够了，这也保证了采样K<<N个动作从原理上来说肯定是足够的。然后具体每次如何选择动作子集呢，文章简单提了一下可以均匀分布采样，也可以用policy network来采样。
总结：这篇文章还挺有意思的，至少说明了我们的树搜索其实不用完全扩展所有动作，在每次建树的时候，只需要扩展一部分来做搜索就可以了。然后这个训练的过程一直持续下去，也会探索到所有动作的。
疑问：文章扯了一堆理论的东西Operator view of Policy Improvement，其实没看明白在干啥。

标签：采样,动作,扩展,Planning,policy,Spaces,Action,节点,MCTS
来源： https://www.cnblogs.com/initial-h/p/15159611.html