首页 > 其他分享> > ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
作者:互联网
发表时间:2019(ICLR 2019)
文章要点:这篇文章主要从理论上分析了model based RL的lower bound,然后不断最大化这个lower bound,从而证明了理论上可以单调上升。
这个框架还提出了一个optimism-in-face-of-uncertainty principle,最要用来鼓励探索,虽然最后没用貌似。作者还说最后用的l2的loss,而不是MSE的l2平方loss,前者效果更好。
最后文章提出了一个叫Stochastic Lower Bounds Optimization (SLBO)的算法来做实验。
这里6.1和6.2是
从算法上来看,这个SLBO和MB-TRPO的唯一区别就是SLBO多了个循环,model和policy都要多更新几次,也就仅此而已了。虽然前面理论倒是吹了很多。。。然后实验在mujoco上做的,做的连续动作,确定性转移。效果也就那样吧。
总结:有启发的一点是可以在model based上面做探索,比如model不准的地方是不是可以在真实的环境里做下探索。虽然文章里面没有这方面的实验。
疑问:为啥l2 loss,比l2平方loss效果更好?
文章在证明的时候要求
这里面要求一个maximization,这又是一个RL问题,要求这个东西solvable也太难了。
标签:loss,BASED,REINFORCEMENT,FRAMEWORK,l2,文章,based,model,SLBO 来源: https://www.cnblogs.com/initial-h/p/15864057.html