首页 > TAG信息列表 > PolicyGrad

强化学习-PolicyGrad(策略梯度强化学习)

1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值,求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss = -log_prob * G # 最大化log_prob * G 即最小化-log_prob * G 3.对