首页 > TAG信息列表 > Qlearning
强化学习算法(一)Qlearning
之前两篇介绍了强化学习基本理论,MDP,Q值,V值,MC,TD。这篇文章中,我会介绍一下我再学习RL过程中学习过的算法,下面从Qlearning开始。 Qlearning 之前的文章中,我介绍了MC,和TD。Qleafnin Qlearning是value-based的算法,Q就是Q(s,a),即agent在某一时刻s状态下采取的a来获得reward的期望。机器学习十讲----第十讲
机器学习的方法: 强化学习: 强化学习的方法: Qlearning: 学习建议:《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法 1、时间差分方法与动态规划方法和蒙特卡罗方法的差异(1)动态规划方法(2)蒙特卡罗方法(3)时间差分方法 2、同策略的Sarsa方法和不同策略的Qlearning方法(1)Sarsa(2)Qlearning 3、基于python的编程(1)利用TD方法进行