强化学习概念
作者:互联网
文章目录
RL算法种类
- 通过价值选行为:q learning, sarsa( 使用表格学习)和deep q network(使用神经网络学习)
- 直接输出行为:policy gradients
- 想象环境并从中学习:model based RL
强化学习方法
Model-free 和 Model-based
- Model-free 的方法有很多, 像 Q learning,Sarsa,Policy Gradients
都是从环境中得到反馈然后从中学习.而 model-based RL 只是多了一道程序, 为真实世界建模, 也可以说他们都是
model-free 的强化学习, 只是 model-based 多出了一个虚拟环境。 - Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略。
基于概率 和 基于价值
- 基于概率是强化学习中最直接的一种, 能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法根据最高价值来选着动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他.
- 对于选取连续的动作, 基于价值的方法是无能为力的.而基于概率的方法的优点之一是用一个概率分布在连续动作中选取特定动作。
- 基于概率: Policy Gradients
- 基于价值:Q learning,Sarsa 等
- Actor-Critic:actor 会基于概率做出动作, 而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.
回合更新 和 单步更新
- 回合更新制:Monte-carlo learning 和基础版的 policy gradients 等
- 单步更新制:Qlearning, Sarsa, 升级版的 policy gradients 等
- 单步更新更有效率, 所以现在大多方法都是基于单步更新
在线学习 和 离线学习
- 最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda
- 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network.
标签:基于,概率,based,学习,概念,Sarsa,强化,Model 来源: https://blog.csdn.net/komorebi6/article/details/104662248