其他分享
首页 > 其他分享> > 博雅大数据机器学习十讲第十讲

博雅大数据机器学习十讲第十讲

作者:互联网

数学模型:马尔可夫决策过程\((MDP)\)

策略

目标

\[E(G_t|S_t=s)=E(\sum^\infty_{k=0}\gamma^kR_{t+k}|S_t=s) \]

状态价值函数

\[V_\pi(s)=R_a(s,s^{'})+\gamma\sum_{s^{'}}P_a(s,s^{'})V_\pi(s^{'}) \]

\[V(s)=max_a(R_a(s,s^{'})+\gamma\sum_{s^{'}}P_a(s,s^{'})V_\pi(s^{'})) \]

\[Q(s,a)=\sum_{s^{'}\in S}P_a(s,s^{'})[R_a(s,s^{'})+\gamma \max_{a^{'}}( Q(s^{'},a^{'}))] \]

深度强化学习

图像修复

案例:

标签:状态,策略,第十,博雅,sum,奖励,十讲,pi,gamma
来源: https://www.cnblogs.com/125418a/p/14473799.html