Distributional RL with Quantile Regression论文翻译
作者:互联网
毕业设计需要选择一篇外文论文进行翻译,翻译完成后正好分享到这里。因为这一篇论文比较难懂,也是比较重要的一篇论文,所以选择了这一篇。有些地方我也还不确定,翻译错误的地方欢迎指正~
论文原文:https://arxiv.org/pdf/1710.10044.pdf
基于分位数回归的分布强化学习
Will Dabney Mark Rowland Marc G. Bellemare Remi Munos
摘要
在强化学习中,智能体通过采取动作并观察下一个时刻的状态和奖励来与环境交互。当概率采样的时候,状态转移方程、奖励和动作都会在观察到的长期回报的时候引起随机性。传统强化学习算法会对此随机性求期望来估计价值函数值。在本文中,我们以最近的工作为基础,该工作提出一种对强化学习使用了分布方法。在该方法中,对价值函数的返回值的分布进行了直接建模,而不是仅仅估计返回值的期望。也就是说,我们研究了学习价值分布而不是价值函数的方法。我们给出的结果弥合了Bellemare,Dabney和Munos (2017) 给出的理论和算法结果之间的许多差距。首先,我们将现有结果扩展到拟合分布的背景下。其次,我们提出了与我们的理论公式一致的一种新的分布强化学习算法。最后,我们在Atari 2600游戏上评估了该新算法,发现它大大优于DQN的许多最新改进后的算法,包括和本论文相关的分布算法C51。
引入
在强化学习中,状态 s s s对应的动作 a a a的价值描述了从该状态开始,选择动作 a a a,然后根据预先设定的策略所获得的返回值期望或奖励的加权和。因为最优策略得到该价值足以执行最优动作,所以这种算法是通过经典的基于价值的方法,例如SARSA (Rummery & Niranjan, 1994) 和Q-Learning (Watkins & Dayan, 1992),这些算法使用了Bellman方程 (Bellman, 1957) 以有效地推导价值。
最近,Bellemare, Dabney和Munos (2017) 证明了价值函数返回值的分布可以通过类似贝尔曼方程的分布公式来描述,与风险敏感的强化学习中的先前工作成果相对应 (Heger, 1994;Morimura et al., 2010;Chow et al., 2015)。但是,在先前的工作中,作者主张对这种价值分布本身进行建模是有效果的。他们的主张是通过展示一种分布强化学习算法C51来实现的,该算法刷新了Atari 2600游戏基准的最高分数 (Bellemare et al., 2013)。
C51算法相关工作的理论贡献之一就是证明了分布贝尔曼算子是概率分布之间Wasserstein度量最大值形式下的收缩。在这种情况下,Wasserstein度量比较特殊,因为它不会受到进行贝尔曼更新时出现的互斥支撑集(Arjovsky, Chintala & Bottou, 2017) 的问题。然而这个结果并不能直接引出一种实用的算法:正如作者所指出的那样,并且由Bellemare等人(2017) 进一步研究,Wasserstein度量作为一种损失函数,通常无法使用随机梯度下降法将其最小化。
这种否定的结果导致了对于是否有可能设计出一种利用收缩结果的在线分布强化学习算法的疑问。取而代之的是,C51算法首先提出了有启发性的使用投影的一步,然后最小化投影后的贝尔曼更新值和预测值之间的KL散度。因此,这项工作在我们对分布强化学习的理解上留下了理论到应用上的空白,这使得C51算法的突出表现难以解释。因此,Wasserstein度量上端到端的分布算法的存在仍然是一个悬而未决的问题。
在本文中,我们肯定地回答了这个问题。 通过分位数回归的理论 (Koenker, 2005),我们证明了存在一种算法,适用于随机拟合的背景,该算法可以使用Wasserstein度量进行分布强化学习。我们的方法依赖于以下技术:
- 我们把C51算法中的参数“转置”了:C51算法使用了N个固定位置来拟合分布并调整其概率,我们将固定的均匀概率分配给了N个可调整的位置。
- 我们证明了分位数回归可以用于随机调整概率分布的位置,来最小化和目标分布的Wasserstein距离。
- 我们正式证明了整体算法的收缩映射结果,并使用这些结果得出我们的方法可以像预想的那样在Wasserstein度量下端到端地执行分布强化学习算法的结果。
尽管仍然通过最大化期望来发挥作用,最初的分布算法的主要兴趣在于其最先进的表现。人们自然会期望直接将Wasserstein度量最小化而不是其拟合果会产生更好的结果。我们为我们提出的方法 (QR-DQN) 推导了一种类似Q-Learning的算法,并将其应用于同一套Atari 2600游戏,发现该模型可以实现更好的性能。通过使用分位数回归的平滑版本,Huber分位数回归,我们的模型的分数中位数已经比C51算法提高了33%。
分布强化学习
我们通过马尔可夫决策过程 (MDP) ( X , A , R , P , γ ) (\mathcal{X}, \mathcal{A},R,P,γ) (X,A,R,P,γ) (Puterman, 1994) 来对智能体和环境之间的交互进行建模,其中 X \mathcal{X} X 和 A \mathcal{A} A 为状态和动作空间,R为随机变量奖励函数 P ( x ′ ∣ x , a ) P(x' |x,a) P(x′∣x,a),即在采取动作 a a a 之后从状态 x x x 转换为状态 x ′ x' x′ 的概率,且有衰减因子 γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ∈[0,1)。策略 π ( ⋅ ∣ x ) \pi (\cdot|x) π(⋅∣x) 将每个状态 x ∈ X x \in \mathcal{X} x∈X 映射到 A \mathcal{A} A 上的分布。
对于固定的策略
π
\pi
π,返回值
Z
π
=
∑
t
=
0
∞
γ
t
R
t
Z^\pi = \sum_{t=0}^\infty \gamma^t R_t
Zπ=∑t=0∞γtRt是一个随机变量,表示沿着一个状态轨迹所观察到的衰减奖励之和。标准的强化学习算法会预测
Z
π
Z^\pi
Zπ的期望价值,即价值函数:
V
π
(
x
)
:
=
E
[
Z
π
(
x
)
]
=
E
[
∑
t
=
0
∞
γ
t
R
(
x
t
,
a
t
)
∣
x
0
=
x
]
(1)
V^\pi (x) := \mathbb{E}[Z^\pi (x)] = \mathbb{E} [\sum_{t=0}^\infty \gamma^t R(x_t, a_t) | x_0=x] \tag{1}
Vπ(x):=E[Zπ(x)]=E[t=0∑∞γtR(xt,at)∣x0=x](1)相似地,许多强化学习算法会估计动作-价值函数:
Q
π
(
x
,
a
)
:
=
E
[
Z
π
(
x
,
a
)
]
=
E
[
∑
t
=
0
∞
γ
t
R
(
x
t
,
a
t
)
]
(2)
Q^\pi(x,a) := \mathbb{E}[Z^\pi (x,a)]=\mathbb{E}[\sum_{t=0}^\infty \gamma^t R(x_t, a_t)] \tag{2}
Qπ(x,a):=E[Zπ(x,a)]=E[t=0∑∞γtR(xt,at)](2)
x
t
∼
P
(
⋅
∣
x
t
−
1
,
a
t
−
1
)
,
a
t
∼
π
(
⋅
∣
x
t
)
,
x
0
=
x
,
a
0
=
a
x_t\sim P(\cdot|x_{t-1}, a_{t-1}), a_t\sim \pi (\cdot | x_t), x_0=x, a_0=a
xt∼P(⋅∣xt−1,at−1),at∼π(⋅∣xt),x0=x,a0=a
Q π Q^\pi Qπ的 ϵ \epsilon ϵ-greedy策略会有 ϵ \epsilon ϵ的概率以均匀分布随机选择动作,否则根据 arg max a Q π ( x , a ) \argmax_a Q^\pi (x,a) aargmaxQπ(x,a)进行选择。
在分布强化学习中,价值函数返回值的分布(即 Z π Z^\pi Zπ的概率分布)起着核心作用并取代了价值函数。我们将通过其随机变量来指代价值分布。当我们说到价值函数是价值分布的期望时,指的是价值函数是在价值分布的所有内在随机性源头 (Goldstein, Misra & Courtage, 1981) 上得到的期望价值。这突出表明,价值分布并不是被设计来捕获价值函数估计值中的不确定性 (Dearden, Friedman and Russell, 1998;Engel, Mannor and Meir, 2005),或者参数不确定性,而是马尔可夫决策过程中潜在的返回值的随机性。
时序差分(TD)方法通过使用贝尔曼算子进行动态规划来逐步优化
Q
π
Q^\pi
Qπ的估计价值,从而显著加快了学习过程 (Bellman, 1957):
T
π
Q
(
x
,
a
)
=
E
[
R
(
x
,
a
)
]
+
γ
E
P
,
π
[
Q
(
x
′
,
a
′
)
]
\Tau^\pi Q(x,a)=\mathbb{E} [R(x,a)]+\gamma \mathbb{E}_{P, \pi} [Q(x', a')]
TπQ(x,a)=E[R(x,a)]+γEP,π[Q(x′,a′)]同样地,价值分布可以使用分布贝尔曼算子,通过动态规划进行计算 (Bellemare, Dabney & Munos, 2017),
T
π
Z
(
x
,
a
)
:
=
D
R
(
x
,
a
)
+
γ
Z
(
x
′
,
a
′
)
(3)
\Tau^\pi Z(x,a) \overset{D}{:=} R(x,a) + \gamma Z(x', a') \tag{3}
TπZ(x,a):=DR(x,a)+γZ(x′,a′)(3)
x
′
P
(
⋅
∣
x
,
a
)
,
a
′
∼
π
(
⋅
∣
x
′
)
x'~P(\cdot |x,a) , a'\sim \pi(\cdot | x')
x′ P(⋅∣x,a),a′∼π(⋅∣x′) 其中
Y
:
=
D
U
Y \overset{D}{:=} U
Y:=DU表示概率分布相等,即随机变量Y与随机变量U服从相同的概率分布。
C51算法使用离散分布对 Z π ( x , a ) Z^\pi (x,a) Zπ(x,a)进行建模,该离散分布的支撑集在固定步骤位置 z 1 ≤ ⋯ ≤ z N z_1 \leq \cdots \leq z_N z1≤⋯≤zN,像梳子一样均匀分布在预先设定的间隔上。该分布的参数是与每个位置 z i z_i zi相关联的概率 q i q_i qi,并表示成logits。在给定当前价值分布的情况下,C51算法应用投影步骤 Φ \Phi Φ将目标 T π Z \Tau^\pi Z TπZ映射到其有限元支撑集上,然后执行Kullback-Leibler (KL) 最小化步骤 (请参见图1)。C51在Atari 2600游戏上达到了最领先的性能,但与Bellemare,Dabney和Munos (2017) 的理论结果明显脱节。现在,我们先回顾这些结果,然后再将它们推广到拟合分布的情况。
Wasserstein度量
对于
p
∈
[
1
,
∞
]
p\in [1,\infty ]
p∈[1,∞],
p
p
p-Wasserstein度量
W
p
W_p
Wp也被称为Mallows度量 (Bickel & Freedman, 1981),当
p
=
1
p=1
p=1时,也被称为Earth Mover’s Distance (EMD) (Levina & Bickel, 2001)。Wasserstein度量是一种概率分布之间的积分概率度量。
p
p
p-Wasserstein距离的特征是累积分布函数逆函数的
L
p
L_p
Lp度量 (Müller, 1997)。也就是说,分布U和Y之间的
p
p
p-Wasserstein度量由下式给出:
W
p
(
U
,
Y
)
=
(
∫
0
1
∣
F
Y
−
1
(
ω
)
−
F
U
−
1
(
ω
)
∣
p
)
1
/
p
(4)
W_p(U, Y)= \left( \int_0^1 |F_Y^{-1}(\omega) - F_U^{-1}(\omega) |^p \right) ^{1/p} \tag{4}
Wp(U,Y)=(∫01∣FY−1(ω)−FU−1(ω)∣p)1/p(4)对于
p
=
∞
p=\infty
p=∞,存在:
W
∞
(
U
,
Y
)
=
sup
ω
∈
[
0
,
1
]
∣
F
Y
−
1
(
ω
)
−
F
U
−
1
(
ω
)
∣
W_{\infty}(U, Y) = \sup_{\omega \in [0,1]} |F_Y^{-1}(\omega) - F_U^{-1}(\omega) |
W∞(U,Y)=ω∈[0,1]sup∣FY−1(ω)−FU−1(ω)∣其中对于随机变量
Y
Y
Y,累积分布函数逆函数
F
Y
−
1
F_Y^{-1}
FY−1为
F
Y
−
1
(
ω
)
:
=
inf
{
y
∈
R
:
ω
≤
F
Y
(
y
)
}
(5)
F_Y^{-1}(\omega) := \inf \{ y \in \R: \omega \leq F_Y(y) \} \tag{5}
FY−1(ω):=inf{y∈R:ω≤FY(y)}(5)其中
F
Y
(
y
)
=
Pr
(
Y
≤
y
)
F_Y (y)=\Pr(Y≤y)
FY(y)=Pr(Y≤y)是随机变量
Y
Y
Y的累积分布函数,图2展示了两个累积分布函数之间的1-Wasserstein距离。
Wasserstein度量具有关注结果之间的潜在度量距离的优秀特质,因此在最近成为越来越多研究的重点 (Arjovsky, Chintala & Bottou, 2017; Bellemare et al., 2017)。与Kullback-Leibler散度不同,Wasserstein度量是一个真实的概率度量,它同时考虑了各种结果事件的概率以及两者之间的距离。这些特性使Wasserstein度量非常适合于结果的潜在相似性比精确匹配的似然性更重要的领域。
分布贝尔曼算子的收敛性
在分布强化学习中,设
Z
Z
Z为有限时间步下的动作-价值分布空间:
Z
=
{
Z
:
X
×
A
→
ρ
(
R
)
∣
E
[
∣
Z
(
x
,
a
)
∣
p
]
<
∞
,
∀
(
x
,
a
)
,
p
≥
1
}
\mathcal{Z} = \{ Z: \mathcal{X} \times \mathcal{A} \rightarrow \rho(\R) | \mathbb{E}[|Z(x,a)|^p] < \infty, \forall (x,a), p \geq 1 \}
Z={Z:X×A→ρ(R)∣E[∣Z(x,a)∣p]<∞,∀(x,a),p≥1}对于两个动作-价值分布
Z
1
,
Z
2
∈
Z
Z_1,Z_2 \in Z
Z1,Z2∈Z,我们使用Wasserstein度量的最大值形式,由Bellemare, Dabney和Munos在2017年提出:
d
‾
p
(
Z
1
,
Z
2
)
:
=
sup
x
,
a
W
p
(
Z
1
(
x
,
a
)
,
Z
2
(
x
,
a
)
)
(6)
\overline{d}_p (Z_1, Z_2) := \sup_{x,a} W_p(Z_1(x,a), Z_2(x,a)) \tag{6}
dp(Z1,Z2):=x,asupWp(Z1(x,a),Z2(x,a))(6)可以得到
d
‾
p
\overline d_p
dp是价值分布上的度量手段,并且分布贝尔曼算子
T
π
\Tau^\pi
Tπ是
d
‾
p
\overline d_p
dp上的收缩,下面给出证明。
引理1: T π \Tau^\pi Tπ是一个 γ \gamma γ-收缩:给定 ∀ Z 1 , Z 2 ∈ Z \forall Z_1,Z_2 \in Z ∀Z1,Z2∈Z,有 d ‾ p ( T π Z 1 , T π Z 2 ) ≤ γ d ‾ p ( Z 1 , Z 2 ) \overline d_p (\Tau^\pi Z_1,\Tau^\pi Z_2) \leq \gamma \overline d_p (Z_1,Z_2) dp(TπZ1,TπZ2)≤γdp(Z1,Z2)
引理1告诉我们 d ‾ p \overline d_p dp对于学习分布强化学习算法的行为是一种有效的测量手段,尤其是证明到定点 Z π Z^\pi Zπ的收敛性。并且,该引理还提出了一种实际中有效学习价值分布的方法是去最小化分布 Z Z Z和它的贝尔曼更新值 T π Z \Tau^\pi Z TπZ之间的Wasserstein距离,和时序差分法尝试迭代减小 Q Q Q和 T Q ΤQ TQ之间的 L 2 L^2 L2距离类似。
不幸的是,另外一个发现表明我们不能在一般情况下把Wasserstein度量当作损失函数,使用随机梯度下降法来最小化。
定理1 设
Y
^
m
≔
1
m
∑
i
=
1
m
δ
Y
i
\hat Y_m ≔ \frac{1}{m} \sum_{i=1}^m \delta_{Y_i}
Y^m:=m1∑i=1mδYi 是从伯努利分布
B
B
B中随机抽样的
Y
1
,
⋯
,
Y
m
Y_1, \cdots ,Y_m
Y1,⋯,Ym获得的经验分布,设
B
μ
B_\mu
Bμ为参数
μ
\mu
μ的伯努利分布,
μ
\mu
μ为随机变量取值为1的概率,那么样本的期望方差的最小值在总体上和真正的Wasserstein损失函数最小值是不同的,也就是说:
arg min
μ
E
Y
1
:
m
[
W
p
(
Y
^
m
,
B
m
u
)
]
≠
arg min
μ
W
p
(
B
,
B
μ
)
\argmin_\mu \mathbb{E}_{Y_1:m} [W_p(\hat Y_m, B_mu)] \neq \argmin_\mu W_p(B, B_\mu)
μargminEY1:m[Wp(Y^m,Bmu)]=μargminWp(B,Bμ)在实际应用中,这个问题变得更加明显,因为价值分布只能近似求得。至关重要的是,C51算法不能保证最小化任何
p
p
p-Wasserstein度量。这种理论和应用的分歧在分布强化学习中不仅局限于C51算法。Morimura等人使用高斯和拉普拉斯分布的均值和度量来参数化价值分布,并且最小化目标值
T
π
Z
\Tau^\pi Z
TπZ和预测值
Z
Z
Z之间的KL散度。他们的工作展示了这种方式学习的价值分布是足够实现风险敏感的Q-Learning模型的,然而他们的方法推导出的理论保证都只能是渐进的;贝尔曼算子在KL散度下,最好的情况是不会增长的。
拟合最小Wasserstein度量
C51算法在每个状态下拟合分布的方法是把使用随机变量参数化后的概率 q 1 , ⋯ , q N q_1, \cdots ,q_N q1,⋯,qN添加到固定位置 z 1 ≤ ⋯ ≤ z N z_1 \leq \cdots \leq z_N z1≤⋯≤zN 。我们的方法转置了这种参数化的方式,考虑固定的概率和可变的位置。也就是说,我们用均匀的权重,使得 q i = 1 N , i = 1 , ⋯ , N q_i= \frac{1}{N},i=1,⋯,N qi=N1,i=1,⋯,N。
我们的新拟合方法的目的是可以高效地估计目标分布的分位数。因此,我们把它叫做“分位数回归”,并设 Z Q Z_Q ZQ为固定 N N N个位置的分位数回归空间。我们把和这种分布有关的累积分布函数(也就是该累积分布函数呈现的离散值)称为 τ 1 , ⋯ , τ N \tau_1,⋯,\tau_N τ1,⋯,τN,使得 τ i = i / N τ_i=i/N τi=i/N对于 i = 1 , ⋯ , N i=1,⋯,N i=1,⋯,N且设 τ 0 = 0 \tau_0=0 τ0=0。
正式来说,设
θ
:
X
×
A
→
R
N
θ:X×A→\R^N
θ:X×A→RN为参数模型,设一个分位数回归为
Z
θ
∈
Z
Q
Z_θ \in Z_Q
Zθ∈ZQ,把每一对状态-动作
(
x
,
a
)
(x,a)
(x,a)映射到一个均匀概率分布分布的支撑集上
θ
i
(
x
,
a
)
{\theta_i (x,a)}
θi(x,a),也就是:
Z
θ
(
x
,
a
)
:
=
1
N
∑
i
=
1
N
δ
θ
i
(
x
,
a
)
(7)
Z_\theta(x,a) := \frac{1}{N} \sum_{i=1}^N \delta_{\theta_i (x,a)} \tag{7}
Zθ(x,a):=N1i=1∑Nδθi(x,a)(7)其中
θ
z
\theta_z
θz表示狄拉克函数,且
z
∈
R
z \in \R
z∈R。
和最初的参数化方法相比,参数化分位数回归的优点有三个:首先,(1) 我们不再限制于支撑集提前设定好的范围或者统一的解法,这样会导致当状态对应的价值函数返回值的范围很大时,我们会得到明显更准确的预测值。这也让 (2)我们可以丢弃掉C51算法中麻烦的投影步骤,因为不再存在不相交支撑集的问题了。同时,这样也消除掉了应用算法到新任务的时候,需要新领域的知识来设定返回值的界限。最后,(3)这种重参数化方法让我们可以最小化Wasserstein损失函数,却不会得到有偏的梯度,尤其是使用分位数回归的时候。
拟合分位数
在强化学习中,众所周知使用函数拟合方法会导致学习过程中的不稳定 (Tsitsiklis & Van Roy, 1997)。尤其,映射到拟合空间的贝尔曼更新值可能不再是收缩了。在我们的例子中,我们分析了分布贝尔曼更新值,并证明了组合后的算子是收缩。
分位数投影 我们对量化把任意价值分布
Z
∈
Z
Z\in \mathcal{Z}
Z∈Z映射到
Z
Q
Z_Q
ZQ上很感兴趣,也就是:
Π
W
1
Z
:
=
arg min
Z
θ
∈
Z
Q
W
1
(
Z
,
Z
θ
)
\Pi_{W_1} Z:= \argmin_{Z_{\theta} \in Z_Q} W_1 (Z, Z_{\theta})
ΠW1Z:=Zθ∈ZQargminW1(Z,Zθ)设
Y
Y
Y为实现添加界限的分布,
U
U
U为有
N
N
N个狄拉克函数和支撑集
θ
1
,
⋯
,
θ
N
{\theta_1, \cdots,\theta_N}
θ1,⋯,θN的均匀分布,则:
W
1
(
Y
,
U
)
=
∑
i
=
1
N
∫
τ
i
−
1
τ
i
∣
F
Y
−
1
(
ω
)
−
θ
i
∣
d
ω
W_1(Y, U) = \sum_{i=1} ^N \int_{\tau_{i-1}}^{\tau_i} |F_Y^{-1}(\omega) - \theta_i| d\omega
W1(Y,U)=i=1∑N∫τi−1τi∣FY−1(ω)−θi∣dω
引理2 对于任意
τ
,
τ
′
∈
[
0
,
1
]
\tau,\tau'\in [0,1]
τ,τ′∈[0,1]且
τ
<
τ
′
\tau< \tau'
τ<τ′,且有累积分布函数
F
F
F和其逆函数
F
−
1
F^{-1}
F−1,
∫
τ
τ
′
∣
F
−
1
(
ω
)
−
θ
∣
d
ω
\int_\tau^{\tau'} |F^{-1}(\omega) - \theta| d\omega
∫ττ′∣F−1(ω)−θ∣dω 最小化该值的
θ
\theta
θ的集合为:
{
θ
∈
R
∣
F
(
θ
)
=
(
τ
+
τ
′
2
)
}
\left\{ \theta \in \R | F(\theta) = \left( \frac{\tau+\tau'}{2} \right) \right\}
{θ∈R∣F(θ)=(2τ+τ′)}尤其是,当
F
−
1
F^{-1}
F−1是累积分布函数的逆函数,则
F
−
1
(
(
τ
+
τ
′
)
/
2
)
F^{-1} ((\tau+\tau')/2)
F−1((τ+τ′)/2)总是一个可用的最小值,如果
F
−
1
F^{-1}
F−1在
(
τ
+
τ
′
)
/
2
(τ+τ')/2
(τ+τ′)/2处是连续的,则是唯一的最小值。
设这些分位数的中点为 τ ^ i = ( τ i − 1 + τ i ) / 2 \hat \tau_i=(\tau_{i-1}+\tau_i)/2 τ^i=(τi−1+τi)/2,对于 1 ≤ i ≤ N 1 \leq i \leq N 1≤i≤N。因此,通过引理2,最小化 W 1 ( Y , U ) W_1 (Y,U) W1(Y,U)的集合 { θ 1 , ⋯ , θ N } \{\theta_1,⋯,\theta_N\} {θ1,⋯,θN}的值可由 θ i = F Y − 1 ( τ ^ i ) \theta_i=F_Y^{-1} (\hat \tau_i) θi=FY−1(τ^i)获得的。图2展示了最小化分位数投影 Π W 1 Z \Pi_{W_1} Z ΠW1Z和 Z Z Z之间的1-Wasserstein距离的例子。
分位数回归
定理1的最初证明只给出了有偏梯度的分布的存在。因此,我们希望我们的分位数参数化方法可以给出无偏的梯度,然而,不幸的是我们并没有做到。
命题1 设
Z
θ
Z_\theta
Zθ是一个分位数分布,并且
Z
^
m
\hat Z_m
Z^m是由从
Z
Z
Z中抽样的
m
m
m个样本组成的经验分布。对于所有的
p
≥
1
p \geq 1
p≥1,存在一个Z使得:
arg min
E
[
W
p
(
Z
^
m
,
Z
θ
)
]
≠
arg min
W
p
(
Z
,
Z
θ
)
\argmin \mathbb{E} [W_p (\hat Z_m, Z_\theta)] \neq \argmin W_p (Z, Z_\theta)
argminE[Wp(Z^m,Zθ)]=argminWp(Z,Zθ)然而,有一种经济学比机器学习领域中更常用的方法来应用与分位数函数的无偏随机拟合值。分位数回归和条件分位数回归,是分别用来拟合分布和条件分布的分位数函数的方法(Koenker, 2005)。这些方法已经应用在多种结果有潜在随机性的背景中(Koenker & Hallock, 2001),从食品支出作为家庭收入指标(Engel, 1857)搭配研究经济学模型的在险价值(Taylor, 1999)。
对于
τ
∈
[
0
,
1
]
\tau \in [0,1]
τ∈[0,1],分位数回归的损失函数是一个不对称的凸损失函数,有权重
τ
\tau
τ惩罚过拟合误差和权重
1
−
τ
1-\tau
1−τ来惩罚欠拟合误差。对于分布
Z
Z
Z和给定的分位数
τ
\tau
τ,分位数函数
F
Z
−
1
(
τ
)
F_Z^{-1}(\tau)
FZ−1(τ)的值可能会是分位数回归损失函数的最小值:
L
QR
τ
(
θ
)
:
=
E
Z
^
∼
Z
[
ρ
τ
(
Z
^
−
θ
i
)
]
(8)
\mathcal{L}_{\text{QR}}^\tau (\theta) := \mathbb{E}_{\hat Z\sim Z} [\rho_\tau (\hat Z - \theta_i)] \tag{8}
LQRτ(θ):=EZ^∼Z[ρτ(Z^−θi)](8)其中有
ρ
τ
(
u
)
=
u
(
τ
−
δ
{
u
<
0
}
)
,
∀
u
∈
R
\rho_\tau(u)=u(\tau-\delta_{\{ u<0 \}}), \forall u\in\R
ρτ(u)=u(τ−δ{u<0}),∀u∈R更多情况下,通过引理2我们可以得到最小化
W
1
(
Z
,
Z
θ
)
W_1 (Z,Z_\theta)
W1(Z,Zθ)的集合
θ
1
,
⋯
,
θ
N
{\theta_1,⋯,\theta_N}
θ1,⋯,θN 也可以最小化下面的目标函数:
∑
i
=
1
N
E
Z
^
∼
Z
[
ρ
τ
^
i
(
Z
^
−
θ
i
)
]
\sum_{i=1}^N \mathbb{E}_{\hat Z\sim Z} [\rho_{\hat \tau_i}(\hat Z- \theta_i)]
i=1∑NEZ^∼Z[ρτ^i(Z^−θi)]特别是,这个损失函数给出的是无偏的样本梯度。因此,我们发现可以通过随机梯度下降法来获得最小化目标函数的集合
{
θ
1
,
⋯
,
θ
N
}
\{θ_1,\cdots,θ_N\}
{θ1,⋯,θN}。
分位数Huber损失函数 分位数回归在零点不是平滑的;当
u
→
0
+
u\rightarrow 0^+
u→0+,式8的梯度保持恒定。我们假设这一点在使用非线性函数拟合时可能会影响表现。因此,我们还考虑了一种修改过的分位数损失函数,叫做分位数Huber损失函数。这种分位数回归的损失函数在零点左右
[
−
κ
,
κ
]
[-\kappa,\kappa]
[−κ,κ]的区间内是不对称的平方损失函数,在区间外是标准的分位数损失函数。Huber损失函数是由Huber在1964年提出:
L
κ
(
u
)
=
{
1
2
u
2
,
∣
u
∣
<
κ
κ
(
∣
u
∣
−
1
2
κ
)
,
其他情况
(9)
\mathcal{L}_\kappa(u) = \begin{cases} \frac{1}{2}u^2, & |u| < \kappa \\ \kappa(|u|-\frac{1}{2}\kappa), & \text{其他情况} \end{cases} \tag{9}
Lκ(u)={21u2,κ(∣u∣−21κ),∣u∣<κ其他情况(9)分位数Huber损失函数则是Huber损失函数的一种简单的不对称版变体:
ρ
τ
κ
(
u
)
=
∣
τ
−
δ
{
u
<
0
}
∣
L
κ
(
u
)
(10)
\rho_\tau^\kappa (u) = |\tau - \delta_{\{ u < 0 \}}| \mathcal{L}_\kappa(u) \tag{10}
ρτκ(u)=∣τ−δ{u<0}∣Lκ(u)(10)为了符号简洁,我们设
ρ
τ
0
=
ρ
τ
\rho_\tau^0=\rho_\tau
ρτ0=ρτ,也就是说它会恢复为一个标准的分位数回归损失函数。
将投影和贝尔曼更新结合
现在我们要证明我们的主要成果,也就是分位数回归的投影和贝尔曼算子结合是一个收缩。其结果使用了 ∞ \infty ∞-Wasserstein度量,也就是两个累积概率函数之间最大的差距。
命题2 设
Π
W
1
\Pi_{W_1}
ΠW1为上文定义的分位数投影,当应用到价值分布时,会给出每个状态-价值分布的投影。设任意两个价值分布
Z
1
,
Z
2
∈
Z
Z_1,Z_2 \in Z
Z1,Z2∈Z 属于一个有限状态-动作空间的马尔可夫决策过程,
d
‾
∞
(
Π
W
1
T
π
Z
1
,
Π
W
1
T
π
Z
2
)
≤
γ
d
‾
∞
(
Z
1
,
Z
2
)
\overline d_\infty (\Pi_{W_1}\Tau^\pi Z_1, \Pi_{W_1}\Tau^\pi Z_2) \leq \gamma \overline d_\infty (Z_1, Z_2)
d∞(ΠW1TπZ1,ΠW1TπZ2)≤γd∞(Z1,Z2)因此我们对于组合后的算子
Π
W
1
T
π
\Pi_{W_1} \Tau^\pi
ΠW1Tπ得出结论,存在唯一一个定点
Z
^
π
\hat Z^π
Z^π,使得对该算子或其随机拟合的反复调用会收敛到
Z
^
π
\hat Z^π
Z^π。因为
d
‾
p
≤
d
‾
∞
\overline d_p \leq \overline d_\infty
dp≤d∞,我们得出结论对于所有
p
∈
[
1
,
∞
]
p\in [1,\infty]
p∈[1,∞]都会收敛。有趣的是,收缩的性值对于
p
<
∞
p<\infty
p<∞是不存在的;详细请见附录中的引理5。
基于分位数回归的分布强化学习
我们现在可以基于我们的理论成果提出一个完整的分布强化学习算法了。也就是,像引理2中一样,使用参数化的分位数分布上的分位数中点值来拟合价值分布。之后使用分位数回归来训练位置参数(公式8)。
分位数回归时序差分学习
对于策略
π
\pi
π,标准的时序差分更新为:
V
(
x
)
←
V
(
x
)
+
α
(
r
+
γ
V
(
x
′
)
−
V
(
x
)
)
,
a
∼
π
(
⋅
∣
x
)
,
r
∼
R
(
x
,
a
)
,
x
′
∼
P
(
⋅
∣
x
,
a
)
V(x) \leftarrow V(x) + \alpha(r+\gamma V(x') - V(x)), a\sim\pi(\cdot | x), r\sim R(x,a), x' \sim P(\cdot | x,a)
V(x)←V(x)+α(r+γV(x′)−V(x)),a∼π(⋅∣x),r∼R(x,a),x′∼P(⋅∣x,a)时序差分使得我们可以通过服从π分布的单一无偏样本来更新价值函数的预测值。分位数回归允许我们通过观察样本
y
∼
Y
(
x
)
y\sim Y(x)
y∼Y(x)对某个目标分布
Y
(
x
)
Y(x)
Y(x)来更新分位数函数的预测值并且最小化公式8。
并且,我们已经证明通过预测有合适
τ
∈
(
0
,
1
)
\tau \in (0,1)
τ∈(0,1)的分位数函数,我们可以获得距离原数值有最小1-Wasserstein距离的拟合值(引理2)。最后,我们可以将该操作和分布贝尔曼算子结合来给出分位数回归需要的目标分布。可以由此推导出分位数回归时序差分学习 (QRTD) 算法:
θ
i
(
x
)
←
θ
i
(
x
)
+
α
(
τ
^
i
−
δ
{
r
+
γ
z
′
<
θ
i
(
x
)
}
)
(12)
\theta_i (x) \leftarrow \theta_i (x) + \alpha (\hat \tau_i - \delta_{ \{ r+\gamma z' < \theta_i (x) \} }) \tag{12}
θi(x)←θi(x)+α(τ^i−δ{r+γz′<θi(x)})(12)其中
a
∼
π
(
⋅
│
x
)
,
r
∼
R
(
x
,
a
)
,
x
′
∼
P
(
⋅
│
x
,
a
)
,
z
′
Z
θ
(
x
′
)
a\sim\pi (\cdot│x),r\sim R(x,a),x'\sim P(\cdot│x,a),z'~Z_\theta (x')
a∼π(⋅│x),r∼R(x,a),x′∼P(⋅│x,a),z′ Zθ(x′),且
Z
θ
Z_\theta
Zθ是公式7中的分位数分布,
θ
i
(
x
)
\theta_i (x)
θi(x)是状态
x
x
x的
F
Z
π
(
x
)
−
1
(
τ
^
i
)
F_{Z^\pi (x)}^{-1} (\hat \tau_i)
FZπ(x)−1(τ^i)的预测值。需要注意的是该更新针对的是
τ
^
i
\hat \tau_i
τ^i的每一个值;并且是为下一时刻状态的价值分布的单一样本定义的。总体上获得多个采样
z
′
∼
Z
(
x
′
)
z'\sim Z(x')
z′∼Z(x′)并最小化期望的更新是更好的。这种情况下一种自然的方法是计算所有
(
θ
i
(
x
)
,
θ
j
(
x
′
)
)
(θ_i (x),θ_j (x'))
(θi(x),θj(x′))的更新值,这也是实际中我们应用的方法。接下来,我们介绍一种控制算法和非线性函数拟合的使用。
分位数回归DQN
Q-Learning算法是一种使用贝尔曼最优算子直接学习最有动作-价值函数的异策略强化学习算法(Watkins & Dayan, 1992),
T
Q
(
s
,
a
)
=
E
[
R
(
x
,
a
)
]
+
γ
E
x
′
∼
P
[
max
a
′
Q
(
x
′
,
a
′
)
]
\Tau Q(s,a)=\mathbb{E}[R(x,a)]+\gamma \mathbb{E}_{x'\sim P} [\max_{a'} Q(x', a')]
TQ(s,a)=E[R(x,a)]+γEx′∼P[a′maxQ(x′,a′)]该算法的分布版变体是预测状态-动作的价值分布并且使用分布贝尔曼最优算子,
T
Z
(
x
,
a
)
=
R
(
x
,
a
)
+
γ
Z
(
x
′
,
a
′
)
(13)
\Tau Z(x,a) = R(x,a) + \gamma Z(x', a') \tag{13}
TZ(x,a)=R(x,a)+γZ(x′,a′)(13)
x
′
∼
P
(
⋅
∣
x
,
a
)
,
a
′
=
arg max
a
′
E
Z
∼
Z
(
x
′
,
a
′
)
[
Z
]
x'\sim P(\cdot | x,a), a'=\argmax_{a'} \mathbb{E}_{\mathcal{Z} \sim Z(x', a')} [\mathcal{Z}]
x′∼P(⋅∣x,a),a′=a′argmaxEZ∼Z(x′,a′)[Z]特别需要注意的是下个时间步的状态的动作是关于下个时间步的状态-动作价值分布均值的贪婪动作。
对于具体算法,我们在DQN架构 (Mnih et al., 2015) 上建立了该算法。我们尽可能地减少对DQN分布版本必要的改动。具体来说,我们需要对DQN有三处改动。首先,我们使用了和DQN几乎相同的神经网络结构,指把输出层的大小改变为 ∣ A ∣ × N |\mathcal{A}|×N ∣A∣×N,其中 N N N是决定分位数目标的数量的超参数。第二,我们把DQN算法使用的Huber损失函数,也就是 L κ ( r t + γ max a ′ Q ( x t + 1 , a ′ ) − Q ( x t , a t ) ) \mathcal{L}_\kappa (r_t+\gamma \max_{a'} Q(x_{t+1},a' )-Q(x_t,a_t)) Lκ(rt+γmaxa′Q(xt+1,a′)−Q(xt,at))并且 κ = 1 \kappa =1 κ=1,修改为分位数Huber损失函数 (完整的损失函数由算法1给出)。最后,我们把RMSProp优化器 (Tieleman & Hinton, 2012) 改变为Adam优化器 (Kingma & Ba,2015)。我们把这个新算法叫做分位数回归DQN (QR-DQN)。
与C51算法不同,QR-DQN不需要投影到拟合分布的支撑集上,相反,它可以任意扩展或收缩值以覆盖返回值的真实范围。另外一个优点是,这一点意味着QR-DQN不需要额外的超参数来限制C51算法需要的支撑集的范围。QR-DQN唯一在DQN不共享的额外超参数是分位数数量N,它控制着我们拟合值的分布。当我们增加N,QR-DQN从DQN变为越来越有能力估算值分布的上下分位数。它变得越来越有能力在累积分布的返回值两端区分低概率事件。
实验结果
在绪论中,我们提出学习返回值的分布比单独学习价值函数具有明显的优势。我们已经给出了进行分布强化学习的理论上合理的算法,用于策略评估的QRTD算法和用于控制的QR-DQN算法。在本节中,我们将通过实验验证提出的分布强化学习算法:(1) 学习价值函数返回值的真实分布;(2) 在训练过程中表现出更高的鲁棒性;(3) 显著改善相对于基线算法的样本复杂性和最终表现。
价值分布拟合误差 我们通过展示QRTD实际上学习的拟合价值分布最小化了和真实价值分布之间的1-Wasserstein。尽管我们的理论结果已经建立了从前者到后者的收敛性,但是实验的表现有助于完善我们的理解。
我们使用经典的windy gridworld问题的变体(Sutton & Barto 1998),将其修改为有两个房间,并且状态转移过程中存在随机性。图3(a) 显示了我们的版本,组合了转移过程的随机性、风和产生多模态分布返回值的在第一个房间的门口。每个状态转移有0.1的概率选择随机方向,否则转移过程会被风让智能体向北移动所影响。奖励函数是0直到达到目标状态 x G x_G xG为止,该状态会终止流程,并返回1.0的奖励。衰减系数 γ = 0.99 \gamma=0.99 γ=0.99。
我们通过使用 1 K 1K 1K的蒙特卡洛 (MC) rollout来计算最优策略π的真实价值分布,并记录观测的返回值作为实验分布,如图3(b)所示。接下来,我们同时运行TD(0)和QRTD,并使用 π \pi π做 10 K 10K 10K次游戏过程。每次游戏都从指定的初始状态 ( x S ) (x_S) (xS)开始。两种算法都以学习率 α = 0.1 \alpha=0.1 α=0.1开始。对于QRTD算法,我们使用 N = 32 N=32 N=32并将 α \alpha α每 2 K 2K 2K次游戏过程就减半。
设 Z MC π ( x S ) Z_\text{MC}^\pi (x_S) ZMCπ(xS)为从起始状态 x S x_S xS开始的动作-价值函数返回值的蒙特卡洛预测值分布,类似地, V MC π ( x S ) V_\text{MC}^\pi (x_S) VMCπ(xS)为它的均值。在图3中,我们展示了两种算法在 x S x_S xS的拟合误差。在(d)中,我们针对TD(0)和QRTD评估了平方误差 [ ( V MC π − V ( x S ) ) ] 2 [(V_\text{MC}^\pi-V(x_S))]^2 [(VMCπ−V(xS))]2,在(e)中,我们展示了QRTD的1-Wasserstein度量, W 1 ( Z MC π ( x S ) , Z ( x S ) ) W_1 (Z_\text{MC}^\pi (x_S ),Z(x_S)) W1(ZMCπ(xS),Z(xS)),其中 V ( x S ) V(x_S) V(xS)和 Z ( x S ) Z(x_S) Z(xS)为算法使用状态 x S x_S xS预测的期望返回值和价值分布。正如预期的那样,两个算法的均值均正确收敛,并且QRTD算法最小化了和 Z MC π Z_\text{MC}^\pi ZMCπ之间的1-Wasserstein距离。
Atari 2600上的测试
在这节,我们提供了证明端到端最小化Wasserstein度量在实际应用中的优势的实验结果,与C51算法相反。我们使用了Arcade学习环境 (ALE) 中的57个Atari 2600游戏 (Bellemare et al.2013)。C51算法和QR-DQN算法均可构建在标准DQN结构上,我们期望两者也能受益于DQN的最新改进,例如dueling体系结构 (Wang et al., 2016) 和优先级重播 (Schaul et al.2016)。但是,在我们的评估中,我们比较了最初版本的C51和QR-DQN,没有这些额外的改动。我们给出了传统分位数损失函数的结果, κ = 0 \kappa=0 κ=0 (QR-DQN-0),还有分位数Huber损失函数, κ = 1 \kappa=1 κ=1 (QR-DQN-1)。
我们对五个训练游戏进行了超参数调整,并使用这组最优超参数设置 ( α = 0.00005 , ϵ ADAM = 0.01 / 32 , N = 200 ) (\alpha=0.00005,\epsilon_\text{ADAM}=0.01/32,N=200) (α=0.00005,ϵADAM=0.01/32,N=200)评估了全部57款游戏。与DQN一样,当计算分布贝尔曼更新值时,我们使用目标网络。我们也允许 ϵ \epsilon ϵ和DQN以相同的速率衰减,直到到达0.01,像最近的相关工作一样 (Bellemare, Dabney & Munos, 2017; Wang et al., 2016; van Hasselt, Guez, & Silver, 2016)。
我们的训练程序遵循Mnih等人的方法 (2015),我们根据两种评估方法展示了结果:最优智能体表现和在线表现。在两种评估方法中我们都考虑了57种Atari 2600游戏的表现,并将原始分数转换为以人类分数归一化的分数 (van Hasselt,Guez & Silver, 2016)。
最优智能体表现 为了提供和目前工作类似的结果,我们给出了最优智能体的测试结果。每训练一百万步后,学习过程会被冻结,并且智能体会测试五十万步,并求该过程的平均返回值。测试的游戏过程从30个随机的no-ops开始 (Mnih et al., 2015),并且智能体使用了一个较低的探索概率 ( ϵ = 0.001 \epsilon=0.001 ϵ=0.001)。随着训练过程我们会记录目前最优的智能体表现。
表1给出了最优的智能体表现,记录了QR-DQN、C51、DQN、Double DQN (van Hasselt, Guez & Silver, 2016) 、优先级回放 (Schaul et al., 2016) 和Dueling结构 (Wang et al., 2016) 在训练两亿步后的表现。我们可以看到QR-DQN的在以人类分数归一化后的分数的平均数和中位数的表现超越了所有先前的智能体。
在线表现 在该测试方法中(图4),我们记录了在测试(左)和训练(右)阶段迭代获得的平均返回值。对于测试表现,我们对每个算法都使用了单一的随机种子,并且在线训练没有任意形式的早停。对于训练表现,价值是三个以上随机种子的平均值。我们观察了所有游戏的以人类分数归一化后的分布,而不是只给出分数的中位数。图中每一个长条都代表了在固定的百分位点的分数分布(10,20,30,40和50)。更高百分位的数据展示出了相似的趋势,但为了视觉上的清晰没有在图中展示,因为他们包含的信息没有低百分位数据多。
从实验结果看,我们可以推断出一些有趣的结果。(1) 在至少10%的游戏中,大部分算法在训练初期的表现没有随机选择动作表现好。(2) QRTD算法和优先级回放算法对样本复杂度带来相似的提升,但最终表现却更好。(3) 即使在两亿步的时候,仍然有10%的游戏所有的算法分数都不到人类分数的10%。最终的分数尤其证明了我们提出的最新成果也仍然被Atari 2600游戏中的一小部分严重限制了。
结论
强化学习中动作-价值函数的返回值分布的重要性目前已经被发现并且强调多次了。在Bellemare, Dabney和Munos (2017)的工作中,该思想被进一步发展,并且被证明是拟合强化学习中的关键部分。然而,该论文留下了一个未解决的问题,是否存在一个算法可以减小Wasserstein度量和实际应用中的差距。
在本论文中,我们通过理论贡献和提出一种在Atari 2600上获得最优表现的新算法来弥合了这种差距。在未来工作中依然存在许多有前景的方向,最令人激动的是通过动作-价值分布来增加更多种类的策略。我们提到了这种策略的几个例子,通常应用在风险敏感的决策过程中。然而,还存在更多的把动作-价值分布看作整体的决策策略。
另外,QR-DQN可能会从近些年DQN的改进中获益。例如,因为QR-DQN的损失函数和贝尔曼算子和DQN算法相似,我们猜想QR-DQN会和DQN一样收到过度估计造成的偏差的问题,也就是Double DQN被设计来解决的问题(van Hasselt, Guez & Silver, 2016)。下一步自然可以是将QR-DQN和表1中的非分布算法结合。
致谢
本文作者承认并感谢他们在Deepmind的同事的重要贡献。尤其感谢Tom Schaul, Audrunas Gruslys, Charles Blundell和Benigno Uria,为他们的早期建议和关于分位数回归话题的讨论。还有,我们感谢来自David Silver, Yee Whye The, Georg Ostrovski, Joseph Modayil, Matt Hoffman, Hado van Hasselt, Ian Osband, Mohammad Azar, Tom Stepleton, Olivier Pietquin, Bilal Piot的意见,以及对Tom Schaul的对于本文初稿的详细意见再次致谢。
参考文献
请参考原论文
附录
证明
引理2 对于任意
τ
,
τ
′
∈
[
0
,
1
]
\tau,\tau'\in [0,1]
τ,τ′∈[0,1]且
τ
<
τ
′
\tau< \tau'
τ<τ′,且有累积分布函数
F
F
F和其逆函数
F
−
1
F^{-1}
F−1,
∫
τ
τ
′
∣
F
−
1
(
ω
)
−
θ
∣
d
ω
\int_\tau^{\tau'} |F^{-1}(\omega) - \theta| d\omega
∫ττ′∣F−1(ω)−θ∣dω 最小化该值的
θ
\theta
θ的集合为:
{
θ
∈
R
∣
F
(
θ
)
=
(
τ
+
τ
′
2
)
}
\left\{ \theta \in \R | F(\theta) = \left( \frac{\tau+\tau'}{2} \right) \right\}
{θ∈R∣F(θ)=(2τ+τ′)}尤其是,当
F
−
1
F^{-1}
F−1是累积分布函数的逆函数,则
F
−
1
(
(
τ
+
τ
′
)
/
2
)
F^{-1} ((\tau+\tau')/2)
F−1((τ+τ′)/2)总是一个可用的最小值,如果
F
−
1
F^{-1}
F−1在
(
τ
+
τ
′
)
/
2
(τ+τ')/2
(τ+τ′)/2处是连续的,则是唯一的最小值。
证明:
对于任意
ω
∈
[
0
,
1
]
\omega \in [0, 1]
ω∈[0,1],函数
θ
→
∣
F
−
1
(
ω
)
−
ω
∣
\theta\rightarrow |F^{-1}(\omega) - \omega|
θ→∣F−1(ω)−ω∣是凸优化,并且有次梯度:
θ
→
{
1
,
θ
<
F
−
1
(
ω
)
[
−
1
,
1
]
,
θ
=
F
−
1
(
ω
)
−
1
,
θ
>
F
−
1
(
ω
)
\theta \rightarrow \begin{cases} 1 , &\theta < F^{-1}(\omega) \\ [-1, 1], &\theta= F^{-1}(\omega) \\ -1, & \theta > F^{-1}(\omega) \end{cases}
θ→⎩⎪⎨⎪⎧1,[−1,1],−1,θ<F−1(ω)θ=F−1(ω)θ>F−1(ω)因此函数
θ
→
∫
τ
τ
′
∣
F
−
1
(
ω
)
−
θ
∣
d
ω
\theta\rightarrow \int_\tau^{\tau'} |F^{-1}(\omega)-\theta| d\omega
θ→∫ττ′∣F−1(ω)−θ∣dω也是凸函数,并且有次梯度
θ
→
∫
τ
F
(
θ
)
−
1
d
ω
+
∫
F
(
θ
)
τ
′
1
d
ω
\theta \rightarrow \int_\tau^{F(\theta)} -1 d\omega + \int_{F(\theta)}^{\tau'} 1 d\omega
θ→∫τF(θ)−1dω+∫F(θ)τ′1dω 设该次梯度为0可得:
(
τ
+
τ
′
)
−
2
F
(
θ
)
=
0
(14)
(\tau + \tau')-2F(\theta) = 0 \tag{14}
(τ+τ′)−2F(θ)=0(14)因为
F
∘
F
−
1
F \circ F^{-1}
F∘F−1是
[
0
,
1
]
[0, 1]
[0,1]上的恒等映射,很明显
θ
=
F
−
1
(
(
τ
+
τ
′
)
/
2
)
\theta = F^{-1}((\tau+\tau')/2)
θ=F−1((τ+τ′)/2)满足公式14。注意,实际上
F
(
θ
)
=
(
τ
+
τ
′
)
/
2
F(\theta)=(\tau+\tau')/2
F(θ)=(τ+τ′)/2中的任意
θ
\theta
θ都会推导出值为0的次梯度,从而导致如果
F
−
1
F^{-1}
F−1在
(
τ
+
τ
′
)
/
2
(\tau+\tau')/2
(τ+τ′)/2不是连续的话,会有多个最小值。
命题1 设
Z
θ
Z_\theta
Zθ是一个分位数分布,并且
Z
^
m
\hat Z_m
Z^m是由从
Z
Z
Z中抽样的
m
m
m个样本组成的经验分布。对于所有的
p
≥
1
p \geq 1
p≥1,存在一个Z使得:
arg min
E
[
W
p
(
Z
^
m
,
Z
θ
)
]
≠
arg min
W
p
(
Z
,
Z
θ
)
\argmin \mathbb{E} [W_p (\hat Z_m, Z_\theta)] \neq \argmin W_p (Z, Z_\theta)
argminE[Wp(Z^m,Zθ)]=argminWp(Z,Zθ)证明:
设
Z
θ
=
∑
i
=
1
N
1
N
δ
θ
i
Z_\theta=\sum_{i=1}^N \frac{1}{N} \delta_{\theta_i}
Zθ=∑i=1NN1δθi,且
θ
1
≤
⋯
≤
θ
N
\theta_1 \leq \cdots \leq \theta_N
θ1≤⋯≤θN。我们设
Z
Z
Z和
Z
θ
Z_\theta
Zθ一样,则考虑
Z
Z
Z:
Z
=
∑
i
=
1
N
1
N
δ
i
Z=\sum_{i=1}^N \frac{1}{N} \delta_i
Z=i=1∑NN1δi有支撑集
{
1
,
⋯
,
N
}
\{ 1, \cdots, N \}
{1,⋯,N},并设
m
=
N
m=N
m=N。很明显
W
p
(
Z
,
Z
θ
)
W_p(Z, Z_\theta)
Wp(Z,Zθ)的唯一最小值
Z
θ
Z_\theta
Zθ有
Z
θ
=
Z
Z_\theta=Z
Zθ=Z。然而,考虑到目标函数关于
θ
1
\theta_1
θ1的梯度
E
[
W
p
(
Z
^
N
,
Z
θ
)
]
\mathbb{E}[W_p(\hat Z_N, Z_\theta)]
E[Wp(Z^N,Zθ)]可得
▽
θ
1
E
[
W
p
(
Z
^
N
,
Z
θ
)
]
∣
θ
1
=
1
=
E
[
▽
θ
1
W
p
(
Z
^
N
,
Z
θ
)
∣
θ
1
=
1
]
\triangledown_{\theta_1} \mathbb{E} [W_p(\hat Z_N, Z_\theta)] |_{\theta_1=1} = \mathbb{E} [\triangledown_{\theta_1} W_p(\hat Z_N, Z_\theta)|_{\theta_1=1}]
▽θ1E[Wp(Z^N,Zθ)]∣θ1=1=E[▽θ1Wp(Z^N,Zθ)∣θ1=1]样本分布
Z
^
N
\hat Z_N
Z^N在1处有离散点,则最优转移方案将
Z
θ
Z_\theta
Zθ处的离散点
θ
1
=
1
\theta_1=1
θ1=1和
Z
^
N
\hat Z_N
Z^N处的离散点组成一对,并且
W
p
(
Z
^
N
,
Z
θ
)
W_p(\hat Z_N, Z_\theta)
Wp(Z^N,Zθ)关于
θ
1
\theta_1
θ1的梯度为0。如果样本分布
Z
^
N
\hat Z_N
Z^N在1处没有离散点,则
Z
^
N
\hat Z_N
Z^N最小的离散点则比1大 (因为
Z
Z
Z有支撑集
{
1
,
⋯
,
N
}
\{ 1, \cdots, N \}
{1,⋯,N})。在这种情况下,
θ
1
\theta_1
θ1处的导数是负数。因为这种情况不是不可能发生,我们总结出:
▽
θ
1
E
[
W
p
(
Z
^
N
,
Z
θ
)
]
∣
θ
1
=
1
<
0
\triangledown_{\theta_1} \mathbb{E} [W_p(\hat Z_N, Z_\theta)] |_{\theta_1 = 1} < 0
▽θ1E[Wp(Z^N,Zθ)]∣θ1=1<0因此
Z
θ
=
Z
Z_\theta = Z
Zθ=Z不会是
E
[
W
p
(
Z
^
N
,
Z
θ
)
]
\mathbb{E} [W_p(\hat Z_N, Z_\theta)]
E[Wp(Z^N,Zθ)]的最小值。
命题2 设
Π
W
1
\Pi_{W_1}
ΠW1为上文定义的分位数投影,当应用到价值分布时,会给出每个状态-价值分布的投影。设任意两个价值分布
Z
1
,
Z
2
∈
Z
Z_1,Z_2 \in Z
Z1,Z2∈Z 属于一个有限状态-动作空间的马尔可夫决策过程,
d
‾
∞
(
Π
W
1
T
π
Z
1
,
Π
W
1
T
π
Z
2
)
≤
γ
d
‾
∞
(
Z
1
,
Z
2
)
\overline d_\infty (\Pi_{W_1}\Tau^\pi Z_1, \Pi_{W_1}\Tau^\pi Z_2) \leq \gamma \overline d_\infty (Z_1, Z_2)
d∞(ΠW1TπZ1,ΠW1TπZ2)≤γd∞(Z1,Z2) 证明:
我们假设状态-动作对给出的当前奖励是确定的,在大部分情况下是直接的泛化。进一步说,因为算子
T
π
\Tau^\pi
Tπ在
d
‾
∞
\overline d_\infty
d∞是
γ
\gamma
γ-收缩的,在
γ
=
1
\gamma=1
γ=1这种情况下证明论证即可。并且,因为Wasserstein距离在分布的支撑集的各种转换下是不变的,对于任意
(
x
,
a
)
∈
X
×
A
(x,a) \in \mathcal{X} \times \mathcal{A}
(x,a)∈X×A来说,只处理
r
(
x
,
a
)
≡
0
r(x,a) \equiv 0
r(x,a)≡0的情况即可。证明首先将问题减小到每个由单个狄拉克函数组成的价值分布的情况来推进,并且使用引理3来处理这种减小后的情况即可。
我们设对于函数
θ
,
ψ
:
X
×
A
←
R
n
\theta, \psi: \mathcal{X}\times \mathcal{A} \leftarrow \R^n
θ,ψ:X×A←Rn,由
Z
(
x
,
a
)
=
∑
k
=
1
N
1
N
δ
θ
k
(
x
,
a
)
Z(x,a) = \sum_{k=1}^N \frac{1}{N} \delta_{\theta_k(x,a)}
Z(x,a)=∑k=1NN1δθk(x,a)和
Y
(
x
,
a
)
=
∑
k
=
1
N
1
N
δ
ϕ
k
(
x
,
a
)
Y(x,a)=\sum_{k=1}^N \frac{1}{N} \delta_{\phi_k (x,a)}
Y(x,a)=∑k=1NN1δϕk(x,a)。设
(
x
,
a
)
(x,a)
(x,a)为状态-动作对,且
(
(
x
i
,
a
i
)
)
i
∈
I
((x_i, a_i))_{i\in I}
((xi,ai))i∈I为所有在单次转移中
(
x
′
,
a
′
)
(x', a')
(x′,a′)可以获取的动作状态对,其中
I
I
I为有限的索引集合。设
p
i
p_i
pi为
(
x
′
,
a
′
)
(x',a')
(x′,a′)到
(
x
i
,
a
i
)
(x_i, a_i)
(xi,ai)的转移概率,且
i
∈
I
i \in I
i∈I。为了应用引理3,我们现在新建一个马尔可夫决策过程(MDP)和该过程的价值分布,其中所有分布都是由单个狄拉克函数给出的。这个新的MDP是这样的:我们获得状态-动作对
(
x
′
,
a
′
)
(x', a')
(x′,a′)并定义新的状态、动作、转移方程和策略
π
~
\tilde{\pi}
π~,使得从
(
x
′
,
a
′
)
(x', a')
(x′,a′)获取的状态-动作对服从
(
(
x
~
i
j
,
a
~
i
j
)
i
∈
I
)
j
=
1
N
((\tilde{x}_i^j, \tilde{a}_i^j)_{i \in I})_{j=1}^N
((x~ij,a~ij)i∈I)j=1N,并且获得状态-动作对
(
x
~
i
j
,
a
~
i
j
)
(\tilde{x}_i^j, \tilde{a}_i^j)
(x~ij,a~ij)的概率为
p
i
/
n
p_i / n
pi/n。并且,我们如下定义了新的价值分布
Z
~
,
Y
~
\tilde{Z}, \tilde{Y}
Z~,Y~,对于任意
i
∈
I
i \in I
i∈I和
j
=
1
,
⋯
,
N
j=1, \cdots, N
j=1,⋯,N,设:
Z
~
(
x
~
i
j
,
a
~
i
j
)
=
δ
θ
j
(
x
i
,
a
i
)
Y
~
(
x
~
i
j
,
a
~
i
j
)
=
δ
ψ
j
(
x
i
,
a
i
)
\tilde{Z}(\tilde{x}_i^j, \tilde{a}_i^j) = \delta_{\theta_j (x_i, a_i)} \\ \tilde{Y}(\tilde{x}_i^j, \tilde{a}_i^j) = \delta_{\psi_j (x_i, a_i)}
Z~(x~ij,a~ij)=δθj(xi,ai)Y~(x~ij,a~ij)=δψj(xi,ai)具体结构请参照图5。
因此,按照引理4,两个真实分布的1-Wasserstein投影的
d
∞
d_\infty
d∞距离是某组分位数的差的最大值。我们应用引理3可得:
d
∞
(
Π
W
1
(
T
π
~
Z
~
)
(
x
′
,
a
′
)
,
Π
W
1
(
T
π
~
Y
~
)
(
x
′
,
a
′
)
)
≤
sup
i
=
1
∈
I
,
j
=
1
,
⋯
,
N
∣
θ
j
(
x
i
,
a
i
)
−
ψ
j
(
x
i
,
a
i
)
∣
=
sup
i
=
1
∈
I
d
∞
(
Z
(
x
i
,
a
i
)
,
Y
(
x
i
,
a
i
)
)
(15)
\begin{aligned} &d_\infty(\Pi_{W_1}(\Tau^{\tilde{\pi}}\tilde{Z})(x',a'), \Pi_{W_1}(\Tau^{\tilde{\pi}}\tilde{Y})(x',a')) \\ \leq & \sup_{i=1\in I, j=1, \cdots, N} |\theta_j(x_i, a_i)-\psi_j(x_i, a_i)| \\ =& \sup_{i=1\in I} d_\infty (Z(x_i, a_i), Y(x_i, a_i)) \end{aligned} \tag{15}
≤=d∞(ΠW1(Tπ~Z~)(x′,a′),ΠW1(Tπ~Y~)(x′,a′))i=1∈I,j=1,⋯,Nsup∣θj(xi,ai)−ψj(xi,ai)∣i=1∈Isupd∞(Z(xi,ai),Y(xi,ai))(15)注意,在定义时,
(
T
π
~
Z
~
)
(
x
′
,
a
′
)
(\Tau^{\tilde{\pi}}\tilde{Z})(x', a')
(Tπ~Z~)(x′,a′)(对应
(
T
π
~
Y
~
)
(
x
′
,
a
′
)
(\Tau^{\tilde{\pi}}\tilde{Y})(x', a')
(Tπ~Y~)(x′,a′))和
(
T
π
Z
)
(
x
′
,
a
′
)
(\Tau^\pi Z)(x', a')
(TπZ)(x′,a′) (对应
T
π
Y
)
(
x
′
,
a
′
)
\Tau^\pi Y)(x', a')
TπY)(x′,a′))有相同的分布,因此:
d
∞
(
Π
W
1
(
T
π
~
Z
~
)
(
x
′
,
a
′
)
,
Π
W
1
(
T
π
~
Y
~
)
(
x
′
,
a
′
)
)
≤
sup
i
∈
I
d
∞
(
Z
(
x
i
,
a
i
)
,
Y
(
x
i
,
a
i
)
)
\begin{aligned} & d_\infty (\Pi_{W_1}(\Tau^{\tilde{\pi}}\tilde{Z})(x',a'), \Pi_{W_1}(\Tau^{\tilde{\pi}}\tilde{Y})(x',a')) \\ \leq & \sup_{i\in I} d_\infty(Z(x_i, a_i), Y(x_i, a_i)) \end{aligned}
≤d∞(ΠW1(Tπ~Z~)(x′,a′),ΠW1(Tπ~Y~)(x′,a′))i∈Isupd∞(Z(xi,ai),Y(xi,ai))选择初始状态
(
x
′
,
a
′
)
(x', a')
(x′,a′)的上确界并给出结果。
支撑证明内容
引理3 设有有限状态和动作空间的马尔可夫决策过程。设
Z
,
Y
Z, Y
Z,Y为价值分布,使得每个状态-价值分布
Z
(
x
,
a
)
,
Y
(
x
,
a
)
Z(x,a), Y(x,a)
Z(x,a),Y(x,a)是由单个狄拉克函数给出的。考虑一种特殊情况,其中奖励恒等为0且
γ
=
1
\gamma = 1
γ=1,设
τ
∈
[
0
,
1
]
\tau \in [0, 1]
τ∈[0,1]。设将概率分布映射到狄拉克
δ
\delta
δ函数的第
τ
\tau
τ个分位数上的投影算子为
T
τ
\Tau_{\tau}
Tτ,则
d
‾
∞
(
Π
τ
T
π
Z
,
Π
τ
T
π
Y
)
≤
d
‾
∞
(
Z
,
Y
)
\overline d_{\infty}(\Pi_\tau \Tau^\pi Z, \Pi_\tau \Tau^\pi Y) \leq \overline d_\infty (Z, Y)
d∞(ΠτTπZ,ΠτTπY)≤d∞(Z,Y)证明
对于每个状态-动作对
(
x
,
a
)
∈
X
×
A
(x,a)\in \mathcal{X} \times \mathcal{A}
(x,a)∈X×A,设
Z
(
x
,
a
)
=
δ
θ
(
x
,
a
)
Z(x,a) = \delta_{\theta(x,a)}
Z(x,a)=δθ(x,a)和
Y
(
x
,
a
)
=
δ
ψ
(
x
,
a
)
Y(x,a) = \delta_{\psi(x,a)}
Y(x,a)=δψ(x,a),且存在函数
ψ
,
θ
:
X
×
A
→
R
\psi, \theta: \mathcal{X} \times \mathcal{A} \rightarrow \R
ψ,θ:X×A→R。设
(
x
′
,
a
′
)
(x', a')
(x′,a′)为状态-动作对,且
(
(
x
i
,
a
i
)
)
i
∈
I
((x_i, a_i))_{i \in I}
((xi,ai))i∈I为所有从
(
x
′
,
a
′
)
(x', a')
(x′,a′)中单次转移可获取的所有状态-动作对,其中
I
I
I是有限或可数的无限索引集合。为了简化符号,设
θ
i
\theta_i
θi和
θ
(
x
i
,
a
i
)
\theta(x_i, a_i)
θ(xi,ai)相同,
ψ
i
\psi_i
ψi和
ψ
(
x
i
,
a
i
)
\psi(x_i, a_i)
ψ(xi,ai)相同。并且,设从
(
x
′
,
a
′
)
(x', a')
(x′,a′)转移到
(
x
i
,
a
i
)
(x_i, a_i)
(xi,ai)的概率为
p
i
p_i
pi,对于所有
i
∈
I
i \in I
i∈I,则可推得:
(
T
π
Z
)
(
x
′
,
a
′
)
=
∑
i
∈
I
p
i
δ
θ
i
(16)
(\Tau ^\pi Z)(x', a') = \sum_{i\in I} p_i \delta_{\theta_i} \tag{16}
(TπZ)(x′,a′)=i∈I∑piδθi(16)
(
T
π
Z
)
(
x
′
,
a
′
)
=
∑
i
∈
I
p
i
δ
ψ
i
(17)
(\Tau ^\pi Z)(x', a') = \sum_{i\in I} p_i \delta_{\psi_i} \tag{17}
(TπZ)(x′,a′)=i∈I∑piδψi(17)现在设任意
τ
∈
[
0
,
1
]
\tau\in[0, 1]
τ∈[0,1]是这些分布的第
τ
\tau
τ个分位数。设
u
∈
I
u \in I
u∈I让
θ
u
\theta_u
θu等于
(
T
π
Z
)
(
x
′
,
a
′
)
(\Tau^\pi Z)(x', a')
(TπZ)(x′,a′)的该分位数,并且
v
∈
I
v\in I
v∈I使得
ψ
v
\psi_v
ψv等于
(
T
π
Y
)
(
x
′
,
a
′
)
(\Tau^\pi Y)(x', a')
(TπY)(x′,a′)的该分位数,有:
d
∞
(
Π
τ
T
π
Z
(
x
′
,
a
′
)
,
Π
τ
T
π
Y
(
x
′
,
a
′
)
)
=
∣
θ
u
−
ψ
v
∣
d_\infty (\Pi_\tau \Tau^\pi Z(x', a'), \Pi_\tau \Tau^\pi Y(x', a')) = |\theta_u - \psi_v|
d∞(ΠτTπZ(x′,a′),ΠτTπY(x′,a′))=∣θu−ψv∣我们可以证明
∣
θ
u
−
ψ
v
∣
>
∣
θ
i
−
ψ
i
∣
,
∀
i
∈
I
(18)
|\theta_u - \psi_v| > |\theta_i - \psi_i|, \forall i \in I \tag{18}
∣θu−ψv∣>∣θi−ψi∣,∀i∈I(18)是不可能的,因为在这种情况下有:
d
∞
(
Π
τ
T
π
Z
(
x
′
,
a
′
)
,
Π
τ
T
π
Y
(
x
′
,
a
′
)
)
≤
d
‾
∞
(
Z
,
Y
)
d_\infty (\Pi_\tau \Tau^\pi Z(x', a'), \Pi_\tau \Tau^\pi Y(x', a')) \leq \overline d_\infty (Z, Y)
d∞(ΠτTπZ(x′,a′),ΠτTπY(x′,a′))≤d∞(Z,Y)并且该结果后面是取得状态-动作对
(
x
′
,
a
′
)
(x',a')
(x′,a′)的最大值。为了证明公式18的不可能,为了不损失泛化性,我们设
θ
u
≤
ψ
v
\theta_u \leq \psi_v
θu≤ψv。
我们现在提出如下对于索引集合
I
I
I的分割方式:
I
≤
θ
u
=
{
i
∈
I
∣
θ
i
≤
θ
u
}
,
I
>
θ
u
=
{
i
∈
I
∣
θ
i
>
θ
u
}
,
I
<
ψ
u
=
{
i
∈
I
∣
ψ
i
<
ψ
u
}
,
I
≥
ψ
u
=
{
i
∈
I
∣
ψ
i
≥
ψ
u
}
,
I_{\leq \theta_u} = \{ i \in I | \theta_i \leq \theta_u \}, \\ I_{> \theta_u} = \{ i \in I | \theta_i > \theta_u \}, \\ I_{< \psi_u} = \{ i \in I | \psi_i < \psi_u \}, \\ I_{\geq \psi_u} = \{ i \in I | \psi_i \geq \psi_u \},
I≤θu={i∈I∣θi≤θu},I>θu={i∈I∣θi>θu},I<ψu={i∈I∣ψi<ψu},I≥ψu={i∈I∣ψi≥ψu},并且可以观察到我们显然可以获得如下的互斥集合:
I
=
I
≤
θ
u
∪
I
>
θ
u
I
=
I
<
ψ
v
∪
I
≥
ψ
v
I = I_{\leq \theta_u} \cup I_{> \theta_u} \\ I = I_{<\psi_v} \cup I_{\geq \psi_v}
I=I≤θu∪I>θuI=I<ψv∪I≥ψv如果要公式18成立,则必须有
I
≤
θ
u
∩
I
≥
ψ
v
=
∅
I_{\leq \theta_u} \cap I_{\geq \psi_v} = \empty
I≤θu∩I≥ψv=∅。因此,必须有
I
<
θ
u
⊆
I
<
ψ
v
I_{< \theta_u} \subseteq I_{< \psi_v}
I<θu⊆I<ψv。但是在这种情况下,因为存在
θ
u
\theta_u
θu为
(
T
π
Z
)
(
x
′
,
a
′
)
(\Tau^\pi Z)(x', a')
(TπZ)(x′,a′)的第
τ
\tau
τ个分位数,必须有
∑
i
∈
I
≤
θ
u
p
i
≥
τ
\sum_{i \in I_{\leq \theta_u}} p_i \geq \tau
i∈I≤θu∑pi≥τ因此可得
∑
i
∈
I
<
ψ
v
p
i
≥
τ
\sum_{i \in I_{< \psi_v}} p_i \geq \tau
i∈I<ψv∑pi≥τ因此我们得出结论,
(
T
π
Y
)
(
x
′
,
a
′
)
(\Tau^\pi Y)(x', a')
(TπY)(x′,a′)的第
τ
\tau
τ个分位数小于
ψ
v
\psi_v
ψv,与命题矛盾,因此公式18不成立,完成了证明。
引理4 对于实数集上的两个任意概率分布
ν
1
,
ν
2
\nu_1, \nu_2
ν1,ν2,以及将分布投影到大小为
n
n
n的支撑集上的Wasserstein投影
Π
W
1
\Pi_{W_1}
ΠW1,存在
d
∞
(
Π
W
1
ν
1
,
Π
W
1
ν
2
)
=
max
i
=
1
,
⋯
,
n
∣
F
ν
1
−
1
(
2
i
−
1
2
n
)
−
F
ν
2
−
1
(
2
i
−
1
2
n
)
∣
\begin{aligned} & d_\infty (\Pi_{W_1} \nu_1, \Pi_{W_1} \nu_2) \\ =& \max_{i=1, \cdots, n} \left| F_{\nu_1}^{-1} \left(\frac{2i-1}{2n}\right) - F_{\nu_2}^{-1} \left(\frac{2i-1}{2n}\right) \right| \end{aligned}
=d∞(ΠW1ν1,ΠW1ν2)i=1,⋯,nmax∣∣∣∣Fν1−1(2n2i−1)−Fν2−1(2n2i−1)∣∣∣∣证明:
在关于引理2的讨论中,对于
k
=
1
,
2
k=1,2
k=1,2,我们得到
Π
W
1
ν
k
=
∑
i
=
1
n
1
n
δ
F
ν
k
−
1
(
2
i
−
1
2
n
)
\Pi_{W_1} \nu_k = \sum_{i=1}^n \frac{1}{n}\delta_{F_{\nu_k}^{-1}(\frac{2i-1}{2n})}
ΠW1νk=∑i=1nn1δFνk−1(2n2i−1)。因此,
Π
W
1
ν
1
\Pi_{W_1} \nu_1
ΠW1ν1和
Π
W
1
ν
2
\Pi_{W_1} \nu_2
ΠW1ν2之间最优耦合一定是由
F
ν
1
−
1
(
2
i
−
1
2
n
)
→
F
ν
2
−
1
(
2
i
−
1
2
n
)
,
i
=
1
,
⋯
,
n
F_{\nu_1}^{-1}(\frac{2i-1}{2n}) \rightarrow F_{\nu_2}^{-1}(\frac{2i-1}{2n}), i=1, \cdots, n
Fν1−1(2n2i−1)→Fν2−1(2n2i−1),i=1,⋯,n给出的。该式立刻可以推导出本引理的公式。
其他理论证明
引理5 投影贝尔曼算子 Π W 1 T π \Pi_{W_1} \Tau^\pi ΠW1Tπ总体上在 d ‾ p \overline d_p dp上是不扩大的,其中 p ∈ [ 1 , ∞ ] p \in [1, \infty] p∈[1,∞]。
证明:
考虑每个分布中狄拉克函数的数量
N
N
N为2的情况,并设
γ
=
1
\gamma =1
γ=1。设马尔可夫决策过程由单一初始状态
x
x
x和两个终止状态
x
1
x_1
x1和
x
2
x_2
x2。我们假设马尔可夫决策过程的动作空间是平凡的(trivial),因此在后续中省略了它的符号。设马尔可夫决策过程有
2
/
3
2/3
2/3的概率从
x
x
x转移到
x
1
x_1
x1,并有
1
/
3
1/3
1/3的概率从
x
x
x转移到
x
2
x_2
x2。我们让马尔可夫决策过程中所有的奖励都恒等为0。设两个价值分布为
Z
Z
Z和
Y
Y
Y,存在:
Z
(
x
1
)
=
1
2
δ
0
+
1
2
δ
2
,
Y
(
x
1
)
=
1
2
δ
1
+
1
2
δ
2
,
Z
(
x
2
)
=
1
2
δ
3
+
1
2
δ
5
,
Y
(
x
2
)
=
1
2
δ
4
+
1
2
δ
5
,
Z
(
x
)
=
δ
0
,
Y
(
x
)
=
δ
0
\begin{aligned} &Z(x_1) = \frac{1}{2} \delta_0 + \frac{1}{2} \delta_2, Y(x_1) = \frac{1}{2} \delta_1 + \frac{1}{2} \delta_2, \\ &Z(x_2) = \frac{1}{2} \delta_3 + \frac{1}{2} \delta_5, Y(x_2) = \frac{1}{2} \delta_4 + \frac{1}{2} \delta_5, \\ \end{aligned} \\ Z(x) = \delta_0, Y(x) = \delta_0
Z(x1)=21δ0+21δ2,Y(x1)=21δ1+21δ2,Z(x2)=21δ3+21δ5,Y(x2)=21δ4+21δ5,Z(x)=δ0,Y(x)=δ0之后可推得
d
p
(
Z
(
x
1
)
,
Y
(
x
1
)
)
=
(
1
2
∣
1
−
0
∣
)
1
/
p
=
1
2
1
/
p
,
d
p
(
Z
(
x
2
)
,
Y
(
x
2
)
)
=
(
1
2
∣
4
−
3
∣
)
1
/
p
=
1
2
1
/
p
,
d
p
(
Z
(
x
)
,
Y
(
x
)
)
=
0
,
\begin{aligned} d_p(Z(x_1), Y(x_1)) = \left( \frac{1}{2} |1 - 0| \right)^{1/p} = \frac{1}{2^{1/p}},& \\ d_p(Z(x_2), Y(x_2)) = \left( \frac{1}{2} |4 - 3| \right)^{1/p} = \frac{1}{2^{1/p}},&\\ d_p(Z(x), Y(x)) = 0,& \end{aligned}
dp(Z(x1),Y(x1))=(21∣1−0∣)1/p=21/p1,dp(Z(x2),Y(x2))=(21∣4−3∣)1/p=21/p1,dp(Z(x),Y(x))=0,因此
d
‾
p
(
Z
,
Y
)
=
1
2
1
/
p
\overline d_p (Z, Y) = \frac{1}{2^{1/p}}
dp(Z,Y)=21/p1现在我们来考虑这两个价值分布在状态
x
x
x时的其他投影过的狄拉克函数。我们首先计算所有的狄拉克函数:
(
T
π
Z
)
(
x
)
=
1
3
δ
0
+
1
3
δ
2
+
1
6
δ
3
+
1
6
δ
5
,
(
T
π
Y
)
(
x
)
=
1
3
δ
1
+
1
3
δ
2
+
1
6
δ
4
+
1
6
δ
5
,
\begin{aligned} (\Tau^\pi Z)(x) &= \frac{1}{3}\delta_0 + \frac{1}{3} \delta_2 + \frac{1}{6} \delta_3 + \frac{1}{6} \delta_5, \\ (\Tau^\pi Y)(x) &= \frac{1}{3}\delta_1 + \frac{1}{3} \delta_2 + \frac{1}{6} \delta_4 + \frac{1}{6} \delta_5, \end{aligned}
(TπZ)(x)(TπY)(x)=31δ0+31δ2+61δ3+61δ5,=31δ1+31δ2+61δ4+61δ5,根据引理2,我们注意到将这些分布投影到两个权重相等的狄拉克函数上时,这些狄拉克函数的位置相当于原始分布的25%分位数和75%分位数,因此有
(
Π
W
1
T
π
Z
)
(
x
)
=
1
2
δ
0
+
1
2
δ
3
,
(
Π
W
1
T
π
Y
)
(
x
)
=
1
2
δ
1
+
1
2
δ
4
,
\begin{aligned} (\Pi_{W_1} \Tau^\pi Z) (x) &= \frac{1}{2} \delta_0 + \frac{1}{2} \delta_3, \\ (\Pi_{W_1} \Tau^\pi Y) (x) &= \frac{1}{2} \delta_1 + \frac{1}{2} \delta_4, \\ \end{aligned}
(ΠW1TπZ)(x)(ΠW1TπY)(x)=21δ0+21δ3,=21δ1+21δ4,因此我们可以得到
d
‾
1
(
Π
W
1
T
π
Z
,
Π
W
1
T
π
Y
)
=
(
1
2
(
∣
1
−
0
∣
p
+
∣
4
−
3
∣
p
)
)
1
/
p
=
1
>
1
2
1
/
p
=
d
‾
1
(
Z
,
Y
)
\begin{aligned} \overline d_1 (\Pi_{W_1} \Tau^\pi Z, \Pi_{W_1} \Tau^\pi Y) &= \left( \frac{1}{2}(|1-0|^p+|4-3|^p) \right)^{1/p} \\ &= 1 > \frac{1}{2^{1/p}} = \overline d_1(Z,Y) \end{aligned}
d1(ΠW1TπZ,ΠW1TπY)=(21(∣1−0∣p+∣4−3∣p))1/p=1>21/p1=d1(Z,Y)完成证明。
符号
以人类分数做归一化的公式由 (van Hasselt, Guez & Silver, 2016) 给出,
score
=
agent
−
random
human
−
random
\text{score} = \frac{\text{agent}-\text{random}}{\text{human}-\text{random}}
score=human−randomagent−random其中
agent
,
human
\text{agent}, \text{human}
agent,human和
random
\text{random}
random代表每局游戏中智能体、人类和随机行为的智能体的原始分数。
标签:tau,Quantile,Distributional,算法,分布,位数,RL,theta,pi 来源: https://blog.csdn.net/Kayaobi/article/details/117399076