首页 > 其他分享> > Temporal difference Learning

Temporal difference Learning

2020-03-19 11:51:44 作者：互联网

TD Learning(时间差分学习)是RL的核心。

Sutton（1988）提出TD通常对值函数的估计涉及到学习方法。

Q-learning (Watkins and Dayan, 1992)和SARSA (Rummery and Niranjan, 1994)是时间差分控制方法。

TD learning (Sutton, 1988)直接用bootstrapping，一个 model-free，online和全增长的方式从带有TD误差的经验上学习函数 V (s)，更新规则如下：

α为学习率，是TD误差。

标签：Sutton,Learning,Temporal,1988,学习,learning,TD,difference
来源： https://www.cnblogs.com/phonard/p/12523129.html