《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
作者:互联网
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法
时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。
1、时间差分方法与动态规划方法和蒙特卡罗方法的差异
与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。
(1)动态规划方法
动态规划方法计算值函数的时候,用到了当前状态S的所有后继状态S’处的值函数,值函数的计算用到了bootstrapping(自举)方法,是由模型得到的。
(2)蒙特卡罗方法
蒙特卡罗方法是利用经验平均估计状态的值函数。此处的经验是指一次试验,一次试验要等到终止状态才结束,所以相比动态规划方法,蒙特卡罗方法学习速度慢,学习效率不高。
(3)时间差分方法
**时间差分方法(TD)**结合了蒙特卡罗的采样方法(即试验)和动态规划方法的bootstapping(即利用后续状态的值函数估计当前值函数)。
TD目标
TD偏差
2、同策略的Sarsa方法和不同策略的Qlearning方法
(1)Sarsa
Sarsa的行动策略和评估策略都是ε-greedy策略。
(2)Qlearning
Qlearning的行动策略为ε-greedy策略,目标策略为贪婪策略。
3、基于python的编程
(1)利用TD方法进行策略评估
在最内层的FOR循环中,处理的是一个时间序列,即一幕数据,TD更新方程为
(2)Sarsa算法
Sarsa算法的行动和评估策略都是ε-greedy策 略,对评估策略进⾏评估的方法是TD方法
(3)Qlearning算法
值函数表示
值函数可以看做一张二维表,一维是状态,一维是动作,以之前的机器人找金币为例
状态空间为[1,2,3,4,5,6,7,8]
动作空间为[‘n’,‘e’,’s’,’w’]
epsilon贪婪探索策略
选择动作的贪婪策略
值函数更新
标签:策略,Qlearning,差分,学习,Sarsa,强化,方法,TD 来源: https://blog.csdn.net/lxs3213196/article/details/110533755