首页 > 其他分享> > TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL

TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL

2022-03-19 12:37:17 作者：互联网

发表时间：2018（ICLR 2018）
文章要点：这篇文提出了temporal difference models(TDMs)算法，把goal-conditioned value functions和dynamics model联系起来，建立了model-free和model-based RL的关系，结合了各自的优点，既利用dynamics里丰富的信息，也超过了直接model based RL的效果。
具体的，一个model based RL的问题可以看求动作序列，同时满足状态转移的约束

换个写法，可以写成

然后，如果我们把reward定义成和状态相关的距离

那么如果折扣因子为0，即我们只考虑一步的reward，我们有goal conditioned value function为

然后前面的式子变为

这个时候就发现，前面model based RL的优化目标，就变成一个和Q function相关的一个东西了，这就和model free方法联系上了。但是这个时候只能考虑折扣因子为0的情况。进一步，在goal conditioned value function里面再加一个planning horizon的参数\(\tau\)，定义一个和horizon有关的Q

这样一来，这个Q就表示给定\(\tau\)步，这个agent和目标状态还有多远。如果\(\tau=0\)，这个东西就变回一步的值了，也就是之前那个一步的dynamics model。所以这个TDM算法可以看成是model based和model free的一种中间形式。进而优化目标变成

有了这个式子之后，就可以组成整个算法了。先用MPC的方式基于reward，和这个Q（这个Q既可以认为是Q，也可以认为是dynamics model）来选择动作，在环境里执行之后收集状一步的态转移存下来。然后用这些状态转移，构造不同目标状态，不同τ的样本用来训练Q。然后重复这个过程。
另外，文章里面还说了，reward做成一个向量的形式来学习，因为reward是和距离相关的，然后状态就是坐标位置，所以这个reward关于各个分量具有可加性，就可以各个坐标分开计算reward（if the distance D(s; sg) factors additively over the dimensions, we can train a vector-valued Q-function that predicts per-dimension distance）。这样的好处是如果有的问题只需要在几个分量上考虑的话，这个问题会变得简单很多（can train the TDM to predict distances along only those dimensions or features that are used by r）。
总结：很有意思的一个工作啊。
疑问：planning是不是在reward稀疏的时候作用更大？
因为这个距离的定义是基于状态的，文章里面的状态就是坐标位置之类的，所以算距离就比较直接，如果状态是图像之类的，就会比较麻烦吧？

标签：CONTROL,状态,based,dynamics,RL,BASED,MODEL,reward,model
来源： https://www.cnblogs.com/initial-h/p/16025957.html