以上所描述的强化学习问题，假定满足马尔科夫性，用良好定义的（well-defines）转移概率来描述的话，构成马尔科夫决策过程。具有有限的状态、行动和奖励集合的马尔科夫决策过程称为有限马尔科夫决策过程(finite MDP)。当前的强化学习理论大多限定于有限马尔科夫决策过程，但是其中的方法和思想则具有更广泛的通用性。

3. 回报 return

回报是关于所有未来的奖励的函数，是智能体寻求最大化的对象。基于任务是回合制还是连续性的，以及是否采用折扣(discounted)计算等，回报具有几种不同的定义。

无折扣计算方法适用于回合制任务（episodic tasks）。在回合制任务，智能体与环境的交互自然地地分隔成一个个相互（相对）独立的时间区间，称为回合，比如说智能体学习下围棋。而折扣计算方法则适用于连续性任务(continuing tasks)，智能体与环境的交互一直连续地持续下去直到永远。当然，回合制任务也可以采用折扣计算方法。但通常连续性任务不会采用无折扣计算方法。

定义一套方程同时适用于回合制任务和连续性任务是很有意义的事情（科学家对‘统一’有一种天然的嗜好^-^）。

4. 价值函数及贝尔曼方程

一种策略的价值函数是关于一个状态的预期回报（expected return from that state）或者关于一个状态-动作对的预期回报（expected return from that state-action pair），分别记为 $v_{\pi}(s),\ q_{\pi}(s,a)$ ，前者称为状态价值函数，后者称为动作价值函数。

最优价值函数则是指在任何可能的策略下所能获得的最大的价值，即 $\begin{align} v_*(s)&=\max\limits_{\pi}v_{\pi}(s) \\ q_*(s,a)&=\max\limits_{\pi}q_{\pi}(s,a) \end{align}$

对应最优价值函数的策略称为最优策略。

对于给定的MDP问题，对于给定状态或状态-动作对的最优价值函数是唯一的，但是最优策略通常并不具有唯一性。好比说，全班同学的身高最大值一定是唯一的，但是身高等于这个最大值的同学可能有多个。

状态价值函数和动作价值函数可以相互表达。从备份图（backup diagram）出发可以很方便地构造出两者相互表达的关系。从两者相互表达的方程出发，通过消元法可以得到各自的递归关系方程，称为贝尔曼方程。

从贝尔曼方程出发，考虑价值函数的最优性可以得到贝尔曼最优方程。贝尔曼最优方程定义了最优价值函数必须满足的特殊的一致性条件。理论上可以通过求解贝尔曼最优方程得到最优价值函数，并进而得到最优策略。

5. 其它

强化学习问题的定义取决于智能体是否掌握完全的关于环境的知识。

如果环境是一个MDP，该模型的动力学机制完全由p(s,s',a,r)决定。智能体没有关于环境的完全的知识，意味着没有关于环境的完备(complete and perfect)的模型。

即便智能体拥有关于环境的完备而精确的模型，由于计算资源的局限，智能体通常也难以充分利用它，尤其是通常现实问题都具有太多的状态。绝大部分情况下都必须只能退而求其次追求近似解。

6. 主要公式

MDP动力学函数

$p(s',r|s,a) \doteq Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\}$

$\sum\limits_{s'\in \mathcal{S}}\sum\limits_{r\in \mathcal{R}}p(s',r|s,a)=1,\ \forall s\in \mathcal{S},\ a\in \mathcal{A}(s)$

$p(s'|s,a)\doteq Pr\{S_t=s'|S_{t-1}=s,\ A_{t-1}=a\}=\sum\limits_{r\in \mathcal{R}}p(s',r|s,a)$

$r(s,a)\doteq \mathbb{E}[R_t|S_{t-1},\ A_{t-1}=a]=\sum\limits_{r\in \mathcal{R}}r \sum\limits_{s'\in \mathcal{S}}p(s',r|s,a)$

$r(s,a,s')\doteq \mathbb{E}[R_t|S_{t-1},\ A_{t-1}=a,S_t=s']=\sum\limits_{r\in \mathcal{R}}r \frac{p(s',r|s,a)}{p(s'|s,a)}$

回报

$G_t \doteq R_{t+1}+R_{t+2}+R_{t+3}+\cdots+R_T$

$G_t \doteq R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots = \sum\limits_{0}\limits^{\infty}\gamma^k R_{t+k+1}, \quad 0 \leq \gamma \leq 1$

$G_t = R_{t+1} + \gamma G_{t+1}$

$G_t \doteq \sum\limits_{k=t+1}\limits^{\infty}\gamma^{k-t-1}R_k,\\ T=\infty( continuous \ tasks) \ or\ \gamma=1(episodic\ taks), but\ not\ both$

价值函数

$v_{\pi}(s)\doteq \mathbb{E}_{\pi}[G_t|S_t=s]=\mathbb{E}_{\pi}\bigg[\sum\limits_{k=0}\limits^{\infty}\gamma^k R_{t+k+1}|S_t=s\bigg], \ \forall s\in \mathcal(S)$

$q_{\pi}(s,a)\doteq \mathbb{E}_{\pi}[G_t|S_t=s,A_t=a] \\=\mathbb{E}_{\pi}\bigg[\sum\limits_{k=0}\limits^{\infty}\gamma^k R_{t+k+1}|S_t=s,A_t=a\bigg], \ \forall s\in \mathcal(S), a\in \mathcal{A}(s)$

贝尔曼方程

$v_{\pi}(s)=\sum\limits_{a}\pi(a|s)\sum\limits_{s',r}p(s',r|s,a)\bigg[r+\gamma v_{\pi}(s')\bigg], \quad \forall x\in \mathcal(S)$

$q_{\pi}(s,a)=\sum\limits_{r,s'}p(r,s'|s,a)\big(r + \gamma \sum\limits_{a'}\pi(a'|s')q_{\pi}(s',a')\big)$

贝尔曼最优方程

$v_*(s)=\max\limits_{a}\sum\limits_{s',r}p(s',r|s,a)\big[r + \gamma v_*(s')\big]$

$q_*(s,a)=\sum\limits_{s',r}p(s',r|s,a)\bigg[r+\gamma \max\limits_{a'}q_*(s',a')\bigg]$

回到本笔记系列总目录：强化学习笔记总目录https://chenxiaoyuan.blog.csdn.net/article/details/121715424

标签：Sutton,方程,函数,智能,Book,贝尔曼,最优,小结,MDP
来源： https://blog.csdn.net/chenxy_bwave/article/details/123091810