强化学习笔记:Sutton-Book第三章小结
作者:互联网
目录
2. 马尔科夫决策过程 MDP:Markov Decision Process
1. 强化学习的agent-environment接口模型
强化学习是从交互(interaction)中学习如何达成某个目的。
智能体agent和环境environment以时间离散的方式进行交互,每次交互称为1个time step。agent-environment接口包含以下几个要素:
- 行动,action: 在每个time-step,agent选择某个行动(施加于环境)
- 状态,state: 环境的状态,agent进行行动选择的依据
- 奖励,reward:环境针对action以及由action所导致的状态变化而给与智能体的即时反馈
智能体内部状态都是已知且可控,而环境的状态则不完全可控,也可能不完全可知。智能体与环境之间的分界线依赖于任务特征。
策略(policy)是一种随机性规则,智能体基于环境的状态并根据策略进行行动选择。
智能体的目标是获得长期回报的最大化(instead of instantaneous reward!).
2. 马尔科夫决策过程 MDP:Markov Decision Process
以上所描述的强化学习问题,假定满足马尔科夫性,用良好定义的(well-defines)转移概率来描述的话,构成马尔科夫决策过程。具有有限的状态、行动和奖励集合的马尔科夫决策过程称为有限马尔科夫决策过程(finite MDP)。当前的强化学习理论大多限定于有限马尔科夫决策过程,但是其中的方法和思想则具有更广泛的通用性。
3. 回报 return
回报是关于所有未来的奖励的函数,是智能体寻求最大化的对象。基于任务是回合制还是连续性的,以及是否采用折扣(discounted)计算等,回报具有几种不同的定义。
无折扣计算方法适用于回合制任务(episodic tasks)。在回合制任务,智能体与环境的交互自然地地分隔成一个个相互(相对)独立的时间区间,称为回合,比如说智能体学习下围棋。而折扣计算方法则适用于连续性任务(continuing tasks),智能体与环境的交互一直连续地持续下去直到永远。当然,回合制任务也可以采用折扣计算方法。但通常连续性任务不会采用无折扣计算方法。
定义一套方程同时适用于回合制任务和连续性任务是很有意义的事情(科学家对‘统一’有一种天然的嗜好^-^)。
4. 价值函数及贝尔曼方程
一种策略的价值函数是关于一个状态的预期回报(expected return from that state)或者关于一个状态-动作对的预期回报(expected return from that state-action pair),分别记为,前者称为状态价值函数,后者称为动作价值函数。
最优价值函数则是指在任何可能的策略下所能获得的最大的价值,即
对应最优价值函数的策略称为最优策略。
对于给定的MDP问题,对于给定状态或状态-动作对的最优价值函数是唯一的,但是最优策略通常并不具有唯一性。好比说,全班同学的身高最大值一定是唯一的,但是身高等于这个最大值的同学可能有多个。
状态价值函数和动作价值函数可以相互表达。从备份图(backup diagram)出发可以很方便地构造出两者相互表达的关系。从两者相互表达的方程出发,通过消元法可以得到各自的递归关系方程,称为贝尔曼方程。
从贝尔曼方程出发,考虑价值函数的最优性可以得到贝尔曼最优方程。贝尔曼最优方程定义了最优价值函数必须满足的特殊的一致性条件。理论上可以通过求解贝尔曼最优方程得到最优价值函数,并进而得到最优策略。
5. 其它
强化学习问题的定义取决于智能体是否掌握完全的关于环境的知识。
如果环境是一个MDP,该模型的动力学机制完全由p(s,s',a,r)决定。智能体没有关于环境的完全的知识,意味着没有关于环境的完备(complete and perfect)的模型。
即便智能体拥有关于环境的完备而精确的模型,由于计算资源的局限,智能体通常也难以充分利用它,尤其是通常现实问题都具有太多的状态。绝大部分情况下都必须只能退而求其次追求近似解。
6. 主要公式
MDP动力学函数
回报
价值函数
贝尔曼方程
贝尔曼最优方程
回到本笔记系列总目录:强化学习笔记总目录https://chenxiaoyuan.blog.csdn.net/article/details/121715424
标签:Sutton,方程,函数,智能,Book,贝尔曼,最优,小结,MDP 来源: https://blog.csdn.net/chenxy_bwave/article/details/123091810