首页 > 其他分享> > Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

2022-04-18 08:34:59 作者：互联网

发表时间：2020（AAAI 2021）
文章要点：这篇文章提出Propositional Logic Nets (PROLONETS)，通过建立决策树的方式来初始化神经网络的结构和权重，从而将人类知识嵌入到神经网络中作为初始化warm start，然后进行强化学习。
具体的，就是先把任务划分成很多个和状态相关的决策节点，通过赋予权重来嵌入人类知识，这样就可以给出一个大体的策略，比如什么情况下做什么动作。然后把这个东西结合到神经网络中

里面的参数是可以训练的，最后输出的是每个动作的概率。
另外，在训练的过程中这个树结构还能继续扩展。在浅层树结构的基础上，再弄一个深层的结构，先随机初始化权重，然后用浅层的结构选动作，然后更新的时候浅层和深层都更新。再通过计算entropy的方式，如果深层结构的entropy的和小于前面浅层结构的entropy，就用entropy小的深层结构替换掉之前的浅层结构。

最后作者还搞了个user study，就是说前面嵌入的知识都是专家提供的，用这个user study搞一个交互界面，让普通人来提供知识，看看效果如何。得出的结论是就算是普通人，也能提高performance。然后作者就说这个东西可以促进democratize RL，就比较公平，没有偏见吧。
总结：思路还是挺有意思的，就是每个任务都需要具体先设计一个决策树来嵌入人类知识，感觉有点麻烦不够通用。
疑问：感觉里面树的构建和更新逻辑还有待考究，可能最开始如何构建决策树是个大问题。
里面提到的那个N-mistake不知道在说啥。

标签：Domain,嵌入,Knowledge,Encoding,浅层,深层,entropy,结构,决策树
来源： https://www.cnblogs.com/initial-h/p/16158112.html