其他分享
首页 > 其他分享> > Temporal difference Learning

Temporal difference Learning

作者:互联网

TD Learning(时间差分学习)是RL的核心。

Sutton(1988)提出TD通常对值函数的估计涉及到学习方法。

Q-learning (Watkins and Dayan, 1992)和SARSA (Rummery and Niranjan, 1994)是时间差分控制方法。

 

TD learning (Sutton, 1988)直接用bootstrapping,一个 model-free,online和全增长的方式从带有TD误差的经验上学习函数 V (s),更新规则如下:

 

α为学习率,是TD误差。

 

 

 

 

 

 

标签:Sutton,Learning,Temporal,1988,学习,learning,TD,difference
来源: https://www.cnblogs.com/phonard/p/12523129.html