首页 > 其他分享> > Richard S.Sutton 《强化学习》学习笔记第三章

Richard S.Sutton 《强化学习》学习笔记第三章

2021-05-11 19:03:06 作者：互联网

目录

第3章有限马尔科夫决策过程
3.1 “智能体-环境”交互接口
3.2 目标和收益
3.3 回报和分幕（episodes）
3.4 分幕式和持续性任务的统一表示法
3.5 策略和价值函数

第3章有限马尔科夫决策过程

MDP涉及了延迟收益，需要在当前收益和延迟收益之间权衡。
赌博机问题估计每个动作的价值 q ∗ ( a ) q_*(a) q∗(a)，MDP问题中估计每个动作a在每个状态s中的价值 q ∗ ( s , a ) q_*(s,a) q∗(s,a)，或者估计给定最优动作下的每个状态的价值 v ∗ ( s ) v_*(s) v∗(s)。

MDP是一种通过交互式学习来实现目标的理论框架。进行学习以及实施决策的机器被称为agent智能体，agent之外所有与其相互作用的事物被称为环境。
在有限MDP中，状态、动作和收益的集合（S,A,R）只有有限元素。
随机变量 R t R_t Rt和 S t S_t St具有明确定义的离散概率分布，且只依赖于前序状态和动作： p ( s ′ , r ∣ s , a ) = P r { S t = s ′ , R t = r ∣ S t − 1 = s , A t − 1 = a } p(s',r|s,a)=Pr\left \{ {S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a} \right \} p(s′,r∣s,a)=Pr{St=s′,Rt=r∣St−1=s,At−1=a}
函数p定义了MDP的动态特性
R t R_t Rt和 S t S_t St的每个可能的值出现的概率只取决于前一个状态 R t − 1 R_{t-1} Rt−1和前一个动作 S t − 1 S_{t-1} St−1，且与更早之前的状态或动作完全无关。
动作：我们想做的决策；状态：对决策有帮助的事情

任何目标导向的行为的学习问题都可以概括为智能体及其环境之间来回传递的三个信号：

补充知识：

大数定律：
在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。偶然中包含着某种必然。

标签：Rt,Sutton,Gt,动作,Richard,状态,收益,学习,智能
来源： https://blog.csdn.net/strawberry47/article/details/116654430