Encoding Human Domain Knowledge to Warm Start Reinforcement Learning
作者:互联网
发表时间:2020(AAAI 2021)
文章要点:这篇文章提出Propositional Logic Nets (PROLONETS),通过建立决策树的方式来初始化神经网络的结构和权重,从而将人类知识嵌入到神经网络中作为初始化warm start,然后进行强化学习。
具体的,就是先把任务划分成很多个和状态相关的决策节点,通过赋予权重来嵌入人类知识,这样就可以给出一个大体的策略,比如什么情况下做什么动作。然后把这个东西结合到神经网络中
里面的参数是可以训练的,最后输出的是每个动作的概率。
另外,在训练的过程中这个树结构还能继续扩展。在浅层树结构的基础上,再弄一个深层的结构,先随机初始化权重,然后用浅层的结构选动作,然后更新的时候浅层和深层都更新。再通过计算entropy的方式,如果深层结构的entropy的和小于前面浅层结构的entropy,就用entropy小的深层结构替换掉之前的浅层结构。
最后作者还搞了个user study,就是说前面嵌入的知识都是专家提供的,用这个user study搞一个交互界面,让普通人来提供知识,看看效果如何。得出的结论是就算是普通人,也能提高performance。然后作者就说这个东西可以促进democratize RL,就比较公平,没有偏见吧。
总结:思路还是挺有意思的,就是每个任务都需要具体先设计一个决策树来嵌入人类知识,感觉有点麻烦不够通用。
疑问:感觉里面树的构建和更新逻辑还有待考究,可能最开始如何构建决策树是个大问题。
里面提到的那个N-mistake不知道在说啥。
标签:Domain,嵌入,Knowledge,Encoding,浅层,深层,entropy,结构,决策树 来源: https://www.cnblogs.com/initial-h/p/16158112.html