Policy Distillation
作者:互联网
发表时间:2016(ICLR 2016)
文章要点:这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher model T to a student model),只是这里用到强化里面了。目的是可以用来做模型压缩,multiple task-specific的策略融合到一个policy里,以及一定程度提升泛化性。
具体的做法就是,用teacher policy和环境交互,收集数据,然后用监督学习的方法训练一个新的policy网络。作者以DQN为例提出了三种loss function。第一种直接学Q value最大值对应的动作,loss为negative log likelihood loss (NLL)
第二种是用mean-squared-error loss (MSE)来学Q value
第三章是用Kullback-Leible divergence (KL)来学用Q value构成的概率分布
得出的结论是MSE最差,KL最好
总结:一篇很老的文章了,算是policy distillation的开端吧,其实主要就是监督学习,修改的就是loss function。
疑问:里面p4说policies are inherently lower variance than value functions,这是为啥?因为value是unbounded吗?
标签:loss,Distillation,value,policy,Policy,2016,teacher 来源: https://www.cnblogs.com/initial-h/p/16350226.html