首页 > 其他分享> > MOReL: Model-Based Offline Reinforcement Learning

MOReL: Model-Based Offline Reinforcement Learning

2021-11-12 14:31:13 作者：互联网

发表时间：2020（NeurIPS 2020）
文章要点：这篇文章用model based方法去做offline RL。主要分为两步，第一步是用offline data学一个pessimistic MDP (P-MDP)，第二步就是用这个P-MDP去学一个near-optimal policy。P-MDP的性质保证了这个near-optimal policy是真实环境里的performance的lower bound。具体来说，因为dataset不可能覆盖整个状态动作空间，所以需要避免model exploitation 的问题。P-MDP把state action分成known和unknown，对于unknown的地方会给一个很大的负的reward，所以把这个东西叫做pessimistic。有了这个P-MDP之后，剩下的就是RL部分了，可以用planning去做，也可以用policy optimization去做等等。整个算法伪代码如图

这里这个Unknown state-action detector (USAD)就是去区分known和unknown的sample的

HALT表示absorbing state，作者拿来做理论证明用的，实践上不是重点。这里还有一个问题是具体怎么去区分known和unknown。作者的做法是训练多个model，用不同的初始网络参数，然后比较ensemble discrepancy

如果超过某个阈值，就认为是unknown的

总结：很make sense的想法，感觉就顺理成章。然后用ensembles of models来判断known和unknown也挺有意思的，就是计算量偏大，不过对于offline RL来说离线的训练也不算什么大问题，毕竟不影响online使用。
疑问：这里面也假设了reward function r is known，这个条件会不会太强了？
是不是可以用异常值检测的方式去判断state是known还是unknown，这样anomaly detection就可以用上了。
Dynamics model learning为啥定义成这个样子

还有Dynamics model一般都是确定性的，就算带随机也是搞个高斯，那如果真的是有离散的多个转移，那怎么办？

标签：Based,unknown,Reinforcement,RL,state,Learning,known,MDP,model
来源： https://www.cnblogs.com/initial-h/p/15544449.html