其他分享
首页 > 其他分享> > Addressing Unmeasured Confounder for Recommendation with Sensitivity Analysis

Addressing Unmeasured Confounder for Recommendation with Sensitivity Analysis

作者:互联网

目录

Ding S., Wu P., Feng F., Wang Y., He X., Liao Y. and Zhang Y. Addressing unmeasured confounder for recommendation with sensitivity analysis. In ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), 2022

以往的鲁棒的 estimator 在存在 unmeasured confounder 的时候会导致 counfounding bias, 本文通过给定 bound 下的对抗训练来解决这一问题.

符号说明

问题

本文方法

  1. 假设我们用逻辑斯蒂回归去拟合 \(\hat{p}\), 即

    \[\hat{p}_{u, i} = \mathbb{P}(o_{u, i} = 1| x_{u, i}) = \frac{\exp(m(x_{u,i}))}{1 + \exp(m(x_{u,i}))}, \]

    其中 \(m(\cdot)\) 是任意的函数;

  2. 类似地, 用加性模型

    \[\tilde{p}_{u, i} = \mathbb{P}(o_{u, i} = 1| x_{u, i}, h_{u,i}) = \frac{\exp(m(x_{u,i}) + \varphi(h_{u, i}))}{1 + \exp(m(x_{u,i}) + \varphi(h_{u,i}))}, \]

    拟合真实的 propensity score;

  3. \(|m(x) + \varphi(h)|\) 的大小和能量有关, 作者假设没观测到 confounders 的能量是有限的, 被控制在 \(|\varphi (h)| \le \log \Gamma, \Gamma \ge 1\), 若 \(\Gamma = 1\), 这意味着不辞你在 confounders;

  4. 此时

    \[\frac{1}{\Gamma} \le \frac{(1 - \hat{p})\tilde{p}}{\hat{p} (1 - \tilde{p})} = \exp(\varphi(h)) \le \Gamma, \]

    于是

    \[a_{u,i} \le \tilde{w}_{u,i} := \frac{1}{\tilde{p}_{u, i}} \le b_{u,i}, \\ a_{u, i} = 1 + (1 / \hat{p}_{u,i} - 1) / \Gamma, b_{u,i} = 1 + (1 / \hat{p}_{u,i} - 1) \Gamma \]

  5. 到此, 我们知道到了 \(\tilde{w}_{u, i}\) 的和 \(\tilde{p}_{u, i}\) 无关的一个上下界, 我们可以从上下界范围内采样合适的点来帮助训练, 作者采取的是对抗训练的思路, 每次采样最恶劣的点:

    \[\tag{12} \min_{\phi} \: \mathcal{L}_{RD-IPS}(\phi) = \max_{W \in \mathcal{W}} \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} o_{u, i} e_{u, i} w_{u, i}, \]

    其中

    \[\mathcal{W} := \{W \in \mathbb{R}_+^{|\mathcal{D}|}: a_{u, i} \le w_{u,i} \le b_{u, i} \} \\ \]

    \(w_{u,i}\) 为 \(W\) 的元素;

  6. 可以期待, 这种方式使得训练更加鲁棒.

Q: 似乎 (12) 中仅仅取到了上界 ?

注: 作者还提出了一个 BRD (Benchmarked RD Framework) 的版本:
$$
\mathcal{L}{BRD-IPS}(\phi) = \max{W \in \mathcal{W}} \frac{1}{|\mathcal{D}|} \sum_{u, i} o_{u, i} (e_{u, i}(\phi) - e_{u, i}(\hat{\phi}^{(0)})) w_{u,i},
$$
其中 \(e_{u, i}(\hat{\phi}^{(0)})\) 是已有的一个方法的估计结果. 其实细想, 注意到
$$
e_{u,i}(\phi) > e_{u,i}(\hat{\phi})
$$
的时候, \(w_{u, i}\) 取 \(b_{u,i}\), 即因为这部分和 baseline 的结果差的还比较远, 所以加强了权重, 而当
$$
e_{u,i}(\phi) < e_{u,i}(\hat{\phi})
$$
之后, \(w_{u, i}\) 取了 \(a_{u,i}\), 即因为在 \(u, i\) pair 上的表现已经比 baseline 更好了, 所以继续好下去可能反而容易造成过拟合之类的, 所以就加了一个小的权重. 话说这个技术应该有别的论文给出吧.

注: 与其它方法的结合这里就不提了.

代码

[official]

标签:mathbb,phi,frac,Sensitivity,Unmeasured,Addressing,tilde,mathcal,hat
来源: https://www.cnblogs.com/MTandHJ/p/16603361.html