首页 > 其他分享> > 【论文笔记】用反事实推断方法缓解标题党内容对推荐系统的影响 Click can be Cheating: Counterfactual Recommendation for Mitigating Cl

【论文笔记】用反事实推断方法缓解标题党内容对推荐系统的影响 Click can be Cheating: Counterfactual Recommendation for Mitigating Cl

2021-12-31 22:05:46 作者：互联网

Click can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue

Authors: 王文杰，冯福利，何向南，张含望，蔡达成

SIGIR'21 新加坡国立大学，中国科学技术大学，南洋理工大学

论文链接：https://dl.acm.org/doi/pdf/10.1145/3404835.3462962

本文链接：https://www.cnblogs.com/zihaojun/p/15713705.html

0. 总结

这篇文章在不引入用户反馈信息的情况下，利用物品的外观特征（exposure feature）和内容特征（content feature），用反事实推断的方法，去除物品外观特征对推荐结果的直接影响，解决推荐系统中“标题党”的问题。

1. 问题背景

在推荐系统的训练数据中，通常将用户点击过的物品作为正样本进行训练。但是，用户点击一个物品不一定是因为用户喜欢这个物品，也可能是因为物品的外观很吸引人，但是内容很差。这种现象称为Clickbait Issue——引诱点击问题。

例如，在视频推荐场景下，用户点击一个视频，可能只是因为视频的封面和标题做的很好，但点进去可能并不喜欢看。
在文章/新闻推荐场景下也是如此，很多标题党文章可以获得很多点击，但用户对这种文章是深恶痛绝的。

Clickbait Issue会导致用户对推荐系统的信任度下降，也会导致低质量的标题党信息在系统中泛滥，产生劣币驱逐良币的效果和马太效应。

因此，设计和训练推荐模型时，不能只追求点击率优化，而应该追求更高的用户满意度，避免陷入“推荐标题党内容-标题党获得更多点击-推荐更多标题党内容”的恶性循环中。

2. 研究目标

利用物品的外观信息和内容信息，区分用户的点击是因为被标题/封面吸引，还是真的喜欢物品的内涵。

3. 方法

3.1 符号和概念

数据集包含历史点击数据\(\bar{\mathcal{D}}=\left\{\left(u, i, \bar{Y}_{u, i}\right) \mid u \in \mathcal{U}, i \in \mathcal{I}\right\}\)，其中\(\bar{Y}_{u, i} \in \{0,1\}\)，分别表示没有/有点击交互。物品特征包括暴露信息（Exposure features）和内容信息（Content features），\(i = (e,t)\)，暴露信息（e）在用户点击之前就能看到，比如标题和封面图；内容信息（t）在点击之后才能看到，例如文章内容、视频内容或物品详情等。

推荐模型预测结果\(Y_{u,i} = s_{\theta}(u,i) \in [0,1]\)，优化目标为：

\[\begin{align} \bar{\theta}=\underset{\theta}{\arg \min } \sum_{\left(u, i, \bar{Y}_{u, i}\right) \in \overline{\mathcal{D}}} l\left(s_{\theta}(u, i), \bar{Y}_{u, i}\right) \end{align} \]

Clickbait Issue：如果推荐系统给出的推荐列表中，把标题很吸引人，但是内容很差的物品\(i\)排在标题不太吸引人，但是内容比较好的物品\(j\)之前，则认为发生了Clickbait Issue。

\[\begin{align} s_{\bar{\theta}}\left(u, i=\left(e_{i}, t_{i}\right)\right)>s_{\bar{\theta}}\left(u, j=\left(e_{j}, t_{j}\right)\right) \end{align} \]

Causal effect：因果效应分解，参见【因果推断】中介因果效应分解汇总与理解（为了读懂这个分解方法，花了很多时间来研究，才写成此文）

总体因果效应：包含直接路径和间接路径的因果效应。
直接因果效应：通过直接路径产生的因果效应。
间接因果效应：通过中介节点产生的因果效应。

3.2 因果推荐模型

如图3（a），在传统的基于特征的推荐模型中，会将物品特征（E, T）都作为输入，通过MLP等模型，得到item的表示（I）。

但是用户可能只是被标题等信息吸引而点击一个物品，因此，本文提出，建模曝光特征（E）对点击（Y）的直接因果效应，如图3（b）。

Mitigating Clickbait Issue

为了解决推荐结果的Clickbait Issue，需要将\(E\rightarrow Y\)这条路径的影响去掉。我们希望去除的是E对Y自然直接效应，保留E对Y的自然间接效应和交互效应，即保留总体间接效应TIE，因此，不能直接对这条路径做干预，否则就会去除掉总体直接效应，只剩自然间接效应NIE：

\[\begin{align} Y_{u,i,e^*} - Y_{u,i^*,e^*} = NIE \end{align} \]

本文希望得到的总体间接效应：

\[\begin{align} TIE = Y_{u,i,e}-Y_{u,i^*,e} \end{align} \]

具体请参考博文【论文笔记】Direct and Indirect Effects、【因果推断】中介因果效应分解汇总与理解
从因果图的角度来理解，\(Y_{u, i, e}\)和\(Y_{u, i^*, e}\)的因果图中，\(E \rightarrow Y\)这条边是一样的（都是e），因此\(E \rightarrow Y\)的直接影响可以被减掉，还剩下\(I \rightarrow Y\)的影响。
直观理解，如果一个物品是靠标题党来吸引流量的，则这个物品在反事实世界中的点击率（\(Y_{u, i^*, e}\)）会很高，从而在反事实推荐模型中被排到后面去。

3.3 模型设计

在因果图中，影响点击概率Y的变量有三个（e，u，i），本文分别建立了u-e模型和u-i模型，分别捕捉物品曝光特征和总体特征对用户点击概率的影响：

\[\begin{align} Y_{u, i, e}=f_{Y}(U=u, I=i, E=e)=f\left(Y_{u, i}, Y_{u, e}\right)=Y_{u, i} * \sigma\left(Y_{u, e}\right) \end{align} \]

模型训练：

\[\begin{align} \mathcal{L}=\sum_{\left(u, i, \bar{Y}_{u, i}\right) \in \overline{\mathcal{D}}} l\left(Y_{u, i, e}, \bar{Y}_{u, i}\right)+\alpha * l\left(Y_{u, e}, \bar{Y}_{u, i}\right) \end{align} \]

模型预测：

\[\begin{align} Y_{C R}=Y_{u, i, e}-Y_{u, i^{*}, e}=Y_{u, i, e}-f\left(c_{u}, Y_{u, e}\right)=Y_{u, i, e}-c_{u} * \sigma\left(Y_{u, e}\right) \end{align} \]

\(c_u\)是用户u对所有物品特征的平均兴趣：

\[\begin{align} c_{u}=E\left(Y_{u, I}\right)=\frac{1}{|\mathcal{I}|} \sum_{i \in I} Y_{u, i} \end{align} \]

4. 实验

4.1 实验结果

使用了两个有物品特征和用户反馈的数据集，统计信息见下表：

\[\begin{aligned} &\text { Table 1: Statistics of two datasets. }\\ &\begin{array}{l|c|c|c|c} \hline \text { Dataset } & \text { #Users } & \text { #Items } & \text { #Clicks } & \text { #Likes } \\ \hline \text { Tiktok } & 18,855 & 34,756 & 1,493,532 & 589,008 \\ \hline \text { Adressa } & 31,123 & 4,895 & 1,437,540 & 998,612 \\ \hline \end{array} \end{aligned} \]

对于每个用户，将正样本按8:1:1的比例随机划分训练集、验证集和测试集，其中测试集中只包含用户给出正反馈的物品。

baseline：

NT：（Normal Training）使用正常的训练数据，即使用曝光特征+内容特征作为模型输入，使用点击数据（而不是只使用正反馈数据）作为正样本参与训练。
CFT：（Content Feature Training）只使用内容特征来训练模型，同样使用点击数据作为正样本参与训练。
IPW：训练阶段使用Inverse Propensity Score的方法来做debias[27,28]。

以下三个baseline是利用了用户反馈数据的：

CT：（Clean Training）只使用正反馈数据作为正样本来训练。
NR：（Negative feedback Re-weighting）将点击但不喜欢的样本，与未点击的样本一起作为负样本进行训练。
RR：（Re-Rank）在NT的基础上，对每个用户前20的推荐物品，结合物品的点赞率进行重排序。

实验表明，本文提出的方法CR（Counterfactual Recommendation）的性能高于所有baseline。

4.2 性能比较

CFT性能比NT要差，说明简单地去除曝光特征是不行的。IPW性能也很差，这可能与本文的设定下，propensity score很难估计有关。
CR的性能高于NT，说明利用用户反馈数据的有效性，更能捕捉用户对内容的兴趣。但CT和NR的性能比较差，这可能是因为直接抛弃用户点击但未给出正反馈的那些数据，会使得数据量大大减少。

一些想法

有些物品可能难以收集或者定义曝光特征，此时就无法应用此方法
本文的模型设计是比较反直觉的，不是直接在预测时把包含e的项去掉，而是减去一项\(c_{u} * \sigma\left(Y_{u, e}\right)\)。这也是因果推断理论的作用——给出不怎么符合直觉但是更合理更有效的模型设计方法。
这是2021年的最后一个晚上发表的今年最后一篇随笔，2021年我发生了很大的变化，希望在即将到来的2022年，能尽快达到自己满意的学术水平，顺利开启博士生涯，抓紧在校园的时光，努力学本领。希望明年能发表100篇以上的博客，读500篇以上的论文，加油加油！

进一步阅读

[45] Tyler J VanderWeele. 2013. A three-way decomposition of a total effect into direct, indirect, and interactive effects. Epidemiology (Cambridge, Mass.) 24, 2 (2013), 224

[30] Dugang Liu, Pengxiang Cheng, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming. 2020. A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data. In SIGIR. ACM, 831–840

[35] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, and JiRong Wen. 2020. Counterfactual VQA: A Cause-Effect Look at Language Bias. In arXiv:2006.04315

[37] Judea Pearl. 2001. Direct and indirect effects. In UAI. Morgan Kaufmann Publishers Inc, 411–420.

[43] Kaihua Tang, Jianqiang Huang, and Hanwang Zhang. 2020. Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect. In NeurIPS.
[44] Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi, and Hanwang Zhang. 2020. Unbiased scene graph generation from biased training. In arXiv:2002.11949

[27] Dawen Liang, Laurent Charlin, and David M Blei. 2016. Causal inference for recommendation. In UAI. AUAI.
[28] Dawen Liang, Laurent Charlin, James McInerney, and David M Blei. 2016. Modeling user exposure in recommendation. In WWW. ACM, 951–961

[32] Hongyu Lu, Min Zhang, and Shaoping Ma. 2018. Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading. In SIGIR. ACM, 435–444.

[52] Hong Wen, Jing Zhang, Yuan Wang, Fuyu Lv, Wentian Bao, Quan Lin, and Keping Yang. 2020. Entire space multi-task modeling via post-click behavior decomposition for conversion rate prediction. In SIGIR. ACM, 2377–2386

标签：Clickbait,Cheating,align,点击,right,物品,Click,因果,left
来源： https://www.cnblogs.com/zihaojun/p/15713705.html