首页 > 其他分享> > 《深入浅出强化学习原理入门》学习笔记（六）基于时间差分的强化学习方法（重点为Qlearning）

《深入浅出强化学习原理入门》学习笔记（六）基于时间差分的强化学习方法（重点为Qlearning）

2020-12-04 20:31:02 作者：互联网

《深入浅出强化学习原理入门》学习笔记（六）基于时间差分的强化学习方法

时间差分（Temporal-Difference，简称TD）方法是一种无模型的强化学习方法，也是强化学习理论中最核心的内容。
在这里插入图片描述

1、时间差分方法与动态规划方法和蒙特卡罗方法的差异

与动态规划方法和蒙特卡罗方法相比，时间差分方法的主要不同在于值函数的估计。

（1）动态规划方法

在这里插入图片描述

动态规划方法计算值函数的时候，用到了当前状态S的所有后继状态S’处的值函数，值函数的计算用到了bootstrapping（自举）方法，是由模型得到的。

（2）蒙特卡罗方法

在这里插入图片描述

蒙特卡罗方法是利用经验平均估计状态的值函数。此处的经验是指一次试验，一次试验要等到终止状态才结束，所以相比动态规划方法，蒙特卡罗方法学习速度慢，学习效率不高。

（3）时间差分方法

在这里插入图片描述

**时间差分方法（TD）**结合了蒙特卡罗的采样方法（即试验）和动态规划方法的bootstapping（即利用后续状态的值函数估计当前值函数）。

TD目标

TD偏差

2、同策略的Sarsa方法和不同策略的Qlearning方法

（1）Sarsa

Sarsa的行动策略和评估策略都是ε-greedy策略。
在这里插入图片描述

（2）Qlearning

Qlearning的行动策略为ε-greedy策略，目标策略为贪婪策略。
在这里插入图片描述

3、基于python的编程

（1）利用TD方法进行策略评估

在这里插入图片描述
在最内层的FOR循环中，处理的是一个时间序列，即一幕数据，TD更新方程为

（2）Sarsa算法

在这里插入图片描述
Sarsa算法的行动和评估策略都是ε-greedy策略，对评估策略进⾏评估的方法是TD方法

（3）Qlearning算法

在这里插入图片描述

值函数表示

值函数可以看做一张二维表，一维是状态，一维是动作，以之前的机器人找金币为例
状态空间为[1，2，3，4，5，6，7，8]
动作空间为[‘n’，‘e’，’s’，’w’]
在这里插入图片描述

epsilon贪婪探索策略

在这里插入图片描述

选择动作的贪婪策略

在这里插入图片描述

值函数更新

在这里插入图片描述

标签：策略,Qlearning,差分,学习,Sarsa,强化,方法,TD
来源： https://blog.csdn.net/lxs3213196/article/details/110533755