其他分享
首页 > 其他分享> > 强化学习PARL——1. 简单认识

强化学习PARL——1. 简单认识

作者:互联网

这个教程参考的是百度PaddlePaddle的RL系列教程:https://aistudio.baidu.com/aistudio/projectdetail/1445501

背景介绍

第一章节属于基础内容,第二课的数学知识总结的很好
在这里插入图片描述

1. 开始

1.1 概念认识

1.1.1 强化学习 vs 其他

强化学习与监督学习的区别

1.1.2 强化学习的如何解决问题

1.1.3 强化学习的算法和环境

1.2 代码实践

1.2.1 环境配置


参考内容
这部分网上已经有很多其他博主也已经学习过了,可以参考:

1.3 强化学习初印象

1.3.1 资料推荐

课程ppt小红小蓝捉迷藏的链接:

红球绿球链接:

书籍

论文

前沿研究方向

视频推荐

b站(视频下方评论区有很多自发总结的笔记,博客等,可以借鉴)

应用方向

1.4 强化学习核心知识

在这里插入图片描述
deep reinforcement learning an overview,论文地址:https://arxiv.org/pdf/1701.07274.pdf
在这里插入图片描述
在这里插入图片描述
算法框架库
在这里插入图片描述
环境库
在这里插入图片描述

在这里插入图片描述

1.5 gym,PARL(PaddlePaddle Reinforcement Learning)

1.5.1 环境安装

安装参考github说明:https://github.com/PaddlePaddle/PARL/tree/develop/examples/tutorials

windows上只支持python3.7的环境

安装依赖

在这里插入图片描述
报了一个问题,OpenCV不兼容,parl安装的时候也报了。。。后续如果出问题就重新安装一下好了

1.5.2 gym简单使用

跟着老师的步骤敲就可以,使用ipython编辑环境会报错,就使用原生的python编辑就好,暂时没有遇到OpenCV版本导致的错误,哈哈哈。
在这里插入图片描述

程序介绍
将gridworld.py程序和gym中的cliffwalkingwapper.py一起看,

大致说明一下这个程序里用到的一些东西
env.reset()复位,让这个小乌龟回到初始位置,初始位置是36号格子
在这里插入图片描述
env.step()让小乌龟进行一个动作,

env.render()每次环境状态(小乌龟走了一步之后,图会改变)发生改变,要重新渲染这个图才能看到新的环境状态。
下面是先0,上一步,再1,右一步之后小乌龟的位置(环境的状态)
每次step返回的四个值分别表示:

1.5.3 PARL

在这里插入图片描述
在这里插入图片描述

1.6 总结

在这里插入图片描述

1.7 课后作业

在这里插入图片描述

pip install paddlepaddle==1.6.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install parl==1.3.1
pip install gym

git clone --depth=1 https://github.com/PaddlePaddle/PARL.git
cd PARL/examples/QuickStart
python train.py

在这里插入图片描述
可以看到目录里有一个这个程序运行后的效果gif图。此外,程序输出信息类似:
在这里插入图片描述
最后目录中会产生一个新的model_dir文件夹,但是里卖的内容打不开
在这里插入图片描述

标签:github,gym,PARL,学习,https,强化,com
来源: https://blog.csdn.net/Castlehe/article/details/112471308