蒙特卡罗方法(Monte Carlo, MC)之on policy 和 off policy
作者:互联网
同轨(on policy)策略:
用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是一样的。在同轨策略方法中,策略一般是软性的(选中任何一个动作的概率大于某个值),会逐渐逼近一个确定性策略。
【同轨策略算法的蒙特卡罗控制的总体思想依然是GPI,采用首次访问型MC算法来估计当前策略的动作价值函数。由于缺乏试探性出发假设,不能简单通过对当前价值函数进行贪心有花来改进策略,否则就无法试探非贪心的动作。】
离轨(off policy)策略:
用于评估或改进的策略和用于实际决策的待评估和改进的策略是不同的,即生成的数据“离开”了待优化的策略所决定的决策序列轨迹。
基于重要度采样的离轨策略
所有的学习控制方法都面临一个困境:它们希望学到的动作可以使随后的智能体行为是最优的,但是为了探索所有的动作来保证找到最优动作,它们需要采取非最优的行动。如何在解决遵循试探策略采取行动的同时学习到最优策略?同轨策略实际上是一种妥协-- 他不直接学习最优策略的动作值,而是学习一个接近最优而且仍能进行试探的策略的动作值。另一个直接的方法是直接采用两个策略,一个用来学习并最终成为最优策略,另一个更加有试探性,并用来产生智能体的行动样本。分别为目标策略和行动策略。(其数据来自一个不同的策略,所以离轨策略方法方差更大,收敛更慢)
重要性采样
几乎所有的离轨策略都采用了重要度采样。重要度采样是一种在给定来自其它分布的样本的条件下,估计某种分布的期望值的通用方法。在应用到离轨策略中时对回报值更具其估计在目标策略与行动策略中出现的相对概率进行加权,这个相对概率也被称为重要度采样比。
尽管整体的轨迹概率值与MDP的状态转移概率有关,而且MDP的转移概率通常是未知的,但它在分子分母中完全相同,所以可被约分。最终,重要度采样比只与两个策略和样本序列数据相关,而与MDP的动态特性(状态转移概率)无关。在实际估计中,只需要根据重要度采样比来调整回报值并对结果进行平均即可。一种是普通重要度采样,另一种是加权重要度采样。
两种重要度采样方法的区别:(都是基于首次访问方法)
在加权平均的估计中,比例系数在分子与分母中被约分,估计值等于观测到的回报值没有重要度采样比无关(假设采样比不为0)。是b策略下的状态估计值,而不是\(\pi\)策略下的估计值,在统计学意义上是有偏的。
......
标签:采样,Monte,off,策略,动作,policy,最优,离轨 来源: https://www.cnblogs.com/yuyuanliu/p/14803635.html