首页 > 其他分享> > 【论文速读】Observe and Look Further: Achieving Consistent Performance on Atari

【论文速读】Observe and Look Further: Achieving Consistent Performance on Atari

2021-07-10 02:01:31 作者：互联网

发表时间：2018
文章要点：文章提出DQN之所有不能解决所有Atari游戏有三个问题，
1：不同游戏的reward量级差别较大，不好直接学习，但是暴力clip到[-1,1]又使得reward没有区分度了，不能解决像bowling这种游戏。
2：γ通常只能设置到0.99，导致horizon不够长，看得不够远。但是如果直接增大γ又会导致方差加大，拟合精度降低。
3：探索能力不够，对于sparse reward的环境没法解决。
对于1，作者对reward新设计了一个可逆的转换函数

我感觉这个函数的主要作用就是开个根号，减小reward的量级（然后函数是可导和Lipschiz连续的，这个是为了理论上保证新的贝尔曼算子还是contraction的，虽然最后取γ的时候还是超过了需要的条件约束。。。也就是说，证明就不用看了，没啥保证，还是看实验结果吧。。。）。这样一来，贝尔曼算子变成了

对于第二个问题，作者新加了一个temporal consistency（TC）loss，

感觉这个目的主要是在更新状态x的时候，不要更新他的下一个状态x'，他文中的解释就有点玄幻了，看不懂。

对于第三个问题，就是加入专家数据做模仿学习，这个模仿学习不是在强化之前直接监督做初始化，而是设置一个buffer和RL的buffer一起喂给网络学习。然后设置了一个新的loss

最后，以上三点再结合Ape-X的分布式和DQfD的模仿学习，放到一起训练。
总结：如果Ape-X和DQfD都是现成的话，工程量就还行。效果来说，有模仿学习一切皆有可能啊。然后这个新的reward transformation的函数好像后面paper还经常看见，有点复杂但是可能效果不错。我觉得直接简化成开根号会不会就好了。
疑问：对于第二个问题，为啥loss要设成那样，完全看不懂他解释的是啥意思？
对于第三个问题，为啥加了个λ，为啥要设计成这个样子？

标签：loss,速读,Look,Consistent,学习,根号,reward,模仿,函数
来源： https://www.cnblogs.com/initial-h/p/14992952.html