其他分享
首页 > 其他分享> > 强化学习PARL——4. 基于策略梯度方法求解RL

强化学习PARL——4. 基于策略梯度方法求解RL

作者:互联网

在这里插入图片描述

在这里插入图片描述
第一个区别:基于价值的,是先求出最优的Q,然后去间接得到action。而基于policy的则是直接输出action的概率。

在这里插入图片描述
第二个区别:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里求得一个东西(优化目标)和基于值的不一样的,这里的目标是:让每个episode的总reward尽可能的大

在这里插入图片描述
在这里插入图片描述
由于实际上,

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述交叉熵可以计算两个概率分布之间的差值,
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签:基于,based,策略,policy,梯度,PARL,action,RL,价值
来源: https://blog.csdn.net/Castlehe/article/details/112844174