Vector Quantized Models for Planning
作者:互联网
发表时间:2021(ICML 2021)
文章要点:文章把MCTS扩展到带随机状态转移和部分可观测下。主要做法就是用VQ-VAE(参看Neural Discrete Representation Learning)自编码器来捕获一个动作可能造成的不同状态转移,然后和之前一样planning。具体来说,之前的muzero(参看Mastering atari, go, chess and shogi by planning with a learned model)的MCTS先是用一个representation function把状态转到压缩空间h,然后用f来预测动作概率π和价值v。做了动作a以后用dynamics function g来转移到下一个h。这篇文章的思路就是,除了h之外,还有一个机会节点c,这个节点也会有另一个f来预测动作概率τ和对应的价值v,VQ-VAE就在这个地方派上用场,输出一个机会节点的动作k,这个k也用在g上用来真正决定下一个状态长啥样。也就是说,状态转移除了之前的策略π做的动作a外,先会转到一个机会节点,机会节点会做一个动作k,然后经过这个动作k之后,才会真正转移到下一个状态。这样做的好处就是给planning增加了随机性。之前在\(s_t\)的时候,一个动作只能对应唯一的一个\(s_(t+1)\)。现在一个动作可以对应多个\(s_(t+1)\)了,具体的方式就是这个动作做完之后先到一个机会节点c,然后c会选动作k,不同的k就会得到不同的状态\(s_(t+1)\)。
关于训练,和muzero类似,就多了一个拟合τ的loss
另外,美中不足的是整个训练不是端到端的,VQ-VAE要先训练,然后再训MCTS相关的网络。
总结:这篇文章很有意思,可以多看看。如果work的话,个人感觉是planning方法向前的一大步。虽然文章中没有说加入机会节点这个概念,但是看流程图的话,我感觉就是这个意思。如果哪天能做到端到端的训练,感觉planning这条路就算是走通了,以后只要堆算力,就能解决所有问题了。
疑问:文章还说,可以对动作和时间做抽象,不用在每个时间步做planning,具体咋做的还没看出来。难道是多个动作a后面加一个动作k?感觉不是很靠谱。文章还有几个实验的设定也不是很清楚,比如worst case和neutral scenario到底指的啥?
标签:状态,动作,Vector,Models,VAE,一个,planning,Quantized,节点 来源: https://www.cnblogs.com/initial-h/p/15145909.html