首页 > TAG信息列表 > 评论家
强化学习-Actor-Critic(演员和评论家)
1.Actor-Critic既学习价值函数,也学习策略函数 2.价值函数用来评估当前的状态是好的,还是不好的,进而帮助Actor进行策略更新 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 即由td_delta来调控损失 3.Critic的学习价值,由Q_value相同的求解方式求出,即Critic(state) =强化学习-Actor-Critic(演员和评论家)
1.Actor-Critic既学习价值函数,也学习策略函数 2.价值函数用来评估当前的状态是好的,还是不好的,进而帮助Actor进行策略更新 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 即由td_delta来调控损失 3.Critic的学习价值,由Q_value相同的求解方式求出,即Critic(state) =