首页 > 其他分享> > 强化学习5——确定性策略

强化学习5——确定性策略

2021-10-19 14:58:52 作者：互联网

用于估计动作-值函数 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a) Q μ ( s , a ) Q^\mu(s,a) Qμ(s,a)的策略估计方法，例如蒙特卡洛估计以及temporal-difference learning。policy改进方法根据(估计的)动作-价值函数更新policy。最常见的方法是动作-价值函数的greedy maximisation(或soft maximisation) ：
μ k + 1 = a r g m a x Q μ k ( s , a ) \mu^{k+1}=argmaxQ^{\mu^k}(s,a) μk+1=argmaxQμk(s,a)
在连续动作空间里，greedy policy improvement会成为问题，需要在每一步都实现global maximisation。相反，一个简单且在计算上有吸引力的替代方案是，将policy朝着Q的梯度方向移动，而不是在全局上使Q最大化:
θ k + 1 = θ k + α E s ρ μ k [ ∇ θ Q μ k ( s , μ θ ( s ) ) ] \theta^{k+1}=\theta^{k}+\alpha \mathbb{E}_{s~\rho^{\mu^{k}}}[\nabla_\theta Q^{\mu^{k}}(s,\mu_\theta(s))] θk+1=θk+αEs ρμk[∇θQμk(s,μθ(s))]
通过应用链式法则，我们可以看到改进的策略可以分解为动作值相对于动作的梯度，以及策略相对于策略参数的梯度。
在这里插入图片描述
然而，下面的理论表明，与随机政策梯度定理一样，状态分布的梯度不需要计算; 而上述直观的更新正是遵循绩效目标的梯度。

标签：maximisation,策略,动作,梯度,mu,确定性,policy,theta,强化
来源： https://blog.csdn.net/qq_41537299/article/details/120845690