其他分享
首页 > 其他分享> > 事件驱动优化:理论

事件驱动优化:理论

作者:互联网

EBO 的理论和强化学习很像,也是 value function(性能势)和 Q function(Q 因子)。

估计熟悉 RL 的朋友已经想象出画面了,但是要注意三点:

  1. value function 不代表 “特定状态下的预期收益”,而是 “特定事件发生后的预期收益”;同样,Q function 代表 “特定事件发生后、做出特定动作的预期收益”。
  2. EBO 的 value function 和 Q function 没法 bootstrap 迭代(一步更新),得用整个轨迹做 Monte Carlo 估计。
  3. 目前月出不知 EBO 是否要加 gamma discount,综述论文没有加,而是“对足够长的 N 步收益求和”。

月出会在下文罗列数学公式,写自己对 性能势、Q 因子 的理解。

1 性能势 / value function

1.1 性能势的定义、优化思路

先从我们 RLer 熟悉的 value function 开始,状态 i 的性能势定义如下。其中,d 是策略,X 是系统状态,E 是事件, N 是远大于 1 的正整数。注意,这里是 状态性能势 而非 事件性能势,先从这里开始推导。

\[g^d_N(i)=\mathbb E\bigg\{\sum_{n=0}^{N-1}f(X_n,d(E_n))|X_0=i\bigg\} \tag{1} \]

然后,定义 \(\pi^d(i|e)\) 为策略 d 下发生事件 e 时,系统处于状态 i 的概率。可以得到事件 e 的性能势:

\[\sum_{i\in I(e)}\pi^d(i|e)\bigg(f(i,d(e))+\sum_{j\in O_i(e)}p(j|i,e,d(e))g_N^d(j)\bigg) \tag{2} \]

因为策略 d 对每个事件 响应一个特定动作,是字典的映射关系;因此,如果我们已知概率 \(\pi^d(i|e)\)、收益 f、系统转移概率 \(p(j|i,e,d(e))\)、状态性能势 \(g_N^d(j)\),就可以遍历所有动作,找一个让上式 argmax 的动作。

1.2 优化细节的讨论

可以和 RL 的 value iteration 一样,迭代地更新策略:更新状态性能势、同时更新策略。

然而有个大问题: