其他分享
首页 > 其他分享> > 强化学习:关于随机策略梯度法中的损失定义

强化学习:关于随机策略梯度法中的损失定义

作者:互联网

还是采用神经网络用于状态和行为概率的非线性拟合

1、随机策略梯度算法回顾
在这里插入图片描述
如上图,迭代公式定义为新=旧+alpha*吃惊程度。所谓的吃惊程度是指,根据当前策略依概率选择了一个行为,虽然这个行为概率较小,但”-log"之后很大,这时候反馈回了一个奖励vt,表明这个小概率行为让决策人很吃惊,接下来要大改参数。

2、如何定义神经网络损失
已知策略梯度法不是依赖损失来反馈修改参数,但神经网络迭代依赖的就是损失,那么如何定义策略梯度的“损失”。
将问题转换为分类问题:
已经获得了一整条轨迹(s1,a1,r2,s2,a2,r3,s3,a3,r4,s4,…)
假设,对于s1,认定a1就是对的,也就是s1对应的真实标签,onehot编码后也就是(1,0,0,…,0);
此时,将s1输入神经网络中,得出一个行为概率分布,与真实标签对应后,就会得出一个分类交叉熵;
但事实却不是这样, 动作a1不一定是 “正确标签”,于是加入vt(奖励来修正损失方向),用 vt 来告诉这个 cross-entropy 算出来的梯度是不是一个值得信任的梯度. 如果 vt 小, 或者是负的, 就说明这个梯度下降是一个错误的方向, 我们应该向着另一个方向更新参数, 如果这个 vt 是正的, 或很大, vt 就会称赞 cross-entropy 出来的梯度, 并朝着这个方向梯度下降.

标签:a1,梯度,s1,损失,法中,神经网络,vt,随机
来源: https://blog.csdn.net/ggjkd/article/details/114988441