评论家

首页 > TAG信息列表 > 评论家

强化学习-Actor-Critic(演员和评论家)

1.Actor-Critic既学习价值函数，也学习策略函数 2.价值函数用来评估当前的状态是好的，还是不好的，进而帮助Actor进行策略更新 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 即由td_delta来调控损失 3.Critic的学习价值，由Q_value相同的求解方式求出，即Critic(state) =