其他分享
首页 > 其他分享> > 《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

作者:互联网

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法

时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。
在这里插入图片描述

1、时间差分方法与动态规划方法和蒙特卡罗方法的差异

与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。

(1)动态规划方法

在这里插入图片描述
在这里插入图片描述
动态规划方法计算值函数的时候,用到了当前状态S的所有后继状态S’处的值函数,值函数的计算用到了bootstrapping(自举)方法,是由模型得到的。

(2)蒙特卡罗方法

在这里插入图片描述
在这里插入图片描述
蒙特卡罗方法是利用经验平均估计状态的值函数。此处的经验是指一次试验,一次试验要等到终止状态才结束,所以相比动态规划方法,蒙特卡罗方法学习速度慢,学习效率不高。

(3)时间差分方法

在这里插入图片描述
在这里插入图片描述
**时间差分方法(TD)**结合了蒙特卡罗的采样方法(即试验)和动态规划方法的bootstapping(即利用后续状态的值函数估计当前值函数)。

TD目标

TD偏差

2、同策略的Sarsa方法和不同策略的Qlearning方法

(1)Sarsa

Sarsa的行动策略和评估策略都是ε-greedy策略。
在这里插入图片描述

(2)Qlearning

Qlearning的行动策略为ε-greedy策略,目标策略为贪婪策略。
在这里插入图片描述

3、基于python的编程

(1)利用TD方法进行策略评估

在这里插入图片描述
在最内层的FOR循环中,处理的是一个时间序列,即一幕数据,TD更新方程为
在这里插入图片描述

(2)Sarsa算法

在这里插入图片描述
Sarsa算法的行动和评估策略都是ε-greedy策 略,对评估策略进⾏评估的方法是TD方法

(3)Qlearning算法

在这里插入图片描述

值函数表示

值函数可以看做一张二维表,一维是状态,一维是动作,以之前的机器人找金币为例
状态空间为[1,2,3,4,5,6,7,8]
动作空间为[‘n’,‘e’,’s’,’w’]
在这里插入图片描述

epsilon贪婪探索策略

在这里插入图片描述

选择动作的贪婪策略

在这里插入图片描述
在这里插入图片描述

值函数更新

在这里插入图片描述
在这里插入图片描述

标签:策略,Qlearning,差分,学习,Sarsa,强化,方法,TD
来源: https://blog.csdn.net/lxs3213196/article/details/110533755