其他分享
首页 > 其他分享> > 强化学习基础:蒙特卡罗和时序差分

强化学习基础:蒙特卡罗和时序差分

作者:互联网

这篇文章承接文章强化学习基础:基本概念和动态规划,介绍另外两种解决强化学习问题的方法

求解方法:Monte Carlo

 

求解方法:Temporal Difference

Monte Carlo (MC) prediction methods must wait until the end of an episode to update the value function estimate, temporal-difference (TD) methods update the value function after every time step.



标签:function,差分,时序,action,returns,value,蒙特卡罗,policy,pi
来源: https://www.cnblogs.com/sunwq06/p/11084512.html