强化学习快速入门
作者:互联网
强化学习快速入门
- Q-learning:查表学习,每个行为在表中有对应的Q值,每一轮通过现实和估计的差距来更新表,具体的更新规则如下。值的注意的是,Q现实项中有一项为下一行为中最大奖励的估计。
- Sarsa:和Q-learning类似,不同点在于更新规则。
- Sarsa和Q-learning对比:为啥Q-learning会更勇敢一点?
- Sarsa(λ):Sarsa原算法缺陷是只有最后的一步被增强,加上拉姆达后,通向成功的每一步都有其对应的增强值,由lamada控制。
- DQN:传统算法的缺陷是表规模受限,神经网络的引入使得大规模行为和Q的映射的存储成为可能,其更新机制如下。其中,记忆重放和固态Q-目标是两个打乱相关性的技巧,这暂时不知道怎么理解,猜测是跟泛化能力有关。
- Policy-Gradients:之前的方法都是只针对离散行为,当输出动作是连续时,Policy-Gradients就要上场了。利用神经网络来存储各种动作的概率,通过reward来更新各种动作的概率。
存在问题:回合制更新,只有到Reward那步才更新。
- Actor-Critic:类似GAN的思想,Actor是利用Policy-gradient的生成网络,Critic是负责对生成行为和环境评估Q值的网络。这样的操作使得其能够实现单步更新(critic评价状态和actor行为)
存在问题:Actor-Critic更新存在相关性?神经网络学不到东西?只能片面地看问题?连续状态下更新,相关性比较大,比较难收敛?
- DDPG:deep deterministic policy gradient,结合了DQN和policy gradient的优点,Actor和Critic各自有两个神经网络,一共四个网络,更新策略如下所示。
-
A3C:人多力量大,多个Actor一起学习。
-
PPO:解决学习率调节的问题,让新旧策略变化幅度控制住。
标签:入门,神经网络,Actor,学习,Critic,Sarsa,更新,learning,强化 来源: https://www.cnblogs.com/YiXinLiu617/p/13155204.html