首页 > 其他分享> > 【强化学习-05】AlphaGo

【强化学习-05】AlphaGo

2022-01-27 21:59:15 作者：互联网

Policy-based reinforcement learning

Policy Networks
- Behavior Cloning
- Train policy network using Policy gradient
Train the value network
Mente Carlo Tree Search

本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

在这里插入图片描述

在这里插入图片描述

Policy Networks

在这里插入图片描述

在这里插入图片描述

Behavior Cloning

在这里插入图片描述

Behavior cloning: 是一种模仿学习，模仿学习和强化学习的主要区别在于：有没有奖励
没有奖励就是模仿学习，有奖励是强化学习

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

behavior cloning其实就是多分类，有361个类，其中label就是人类的下法。

在这里插入图片描述

如果策略网络没有见过 a t a_t at，策略网络就无法识别，就会失效。因此下一步 a t + 1 a_{t+1} at+1就会更奇怪。

Train policy network using Policy gradient

在这里插入图片描述

player: 根据reward来更新policy network
强化学习用奖励来更新网络
模仿学习没有奖励

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Train the value network

在这里插入图片描述

在这里插入图片描述

Mente Carlo Tree Search

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

标签：network,05,学习,AlphaGo,Train,policy,Policy,强化,奖励
来源： https://blog.csdn.net/HsinglukLiu/article/details/122721460