其他分享
首页 > 其他分享> > 策略梯度中的baseline

策略梯度中的baseline

作者:互联网

策略梯度中的Baseline

Policy Gradient with Baseline

Policy Gradient

在这里插入图片描述

Baseline

在这里插入图片描述

Policy Gradient with Baseline

在这里插入图片描述

在这里插入图片描述

Monte Carlo Approximation

在这里插入图片描述

Stochastic Policy Gradient

在这里插入图片描述

在这里插入图片描述

Choices of Baselines

在这里插入图片描述

REINFORCE with Baseline

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Policy and Value Network

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

REINFORCE with Baseline

在这里插入图片描述

在这里插入图片描述

Summary

在这里插入图片描述

Advantage Actor-Critic (A2C)

在这里插入图片描述

在这里插入图片描述

Training of A2C

在这里插入图片描述

Properties of Value Functions

在这里插入图片描述

在这里插入图片描述

Properties of State-Value Function

在这里插入图片描述

Monte Carlo Approximations

在这里插入图片描述

Updating Policy Network

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Updating Value Network

在这里插入图片描述

œ

Summary

在这里插入图片描述

REINFORCE vs A2C

A2C with Multi-Step TD Target

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Review REINFORCE

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

标签:期望,baseline,梯度,网络,pi,我们,策略
来源: https://blog.csdn.net/qq_38689352/article/details/120106627