Towards Causal Representation Learning
作者:互联网
背景动机
- 和自然智能相比,机器智能不擅长解决不同分布的新问题,主要是机器学习常常会忽略一些动物们常常使用的相关信息
- 鲁棒性:计算机视觉领域通过数据增强来模拟分布变化,但这还不够,使用因果模型可以观察到统计相关性,并允许通过干预来模拟分布变化
- 学习可重用机制:更少的例子,更多知识,并能在新环境中应用
因果建模层次
不同模型
- 微分方程是对物理系统的全面描述,可以从中直观解读因果结构,查看一个变量如何被其他变量所影响,同样可以从中推断干预的后果
- 统计模型是一种粗糙的描述,无法预测干预的效果,但可以从数据中学习出来,不像微分方程需要专家提出
- 因果模型是对二者的结合,既能推测干预效果,又能从数据中学习出来
不同能力
- Predicting in the i.i.d. setting:从独立同分布的数据中回答可以被归纳为P(Y|X)的问题
- Predicting Under Distribution Shifts:干预会使得数据分布发生变化,如果可以在干预的情况下学习一个预测模型,那么这有可能是一个对现实环境中的分布变化鲁棒的模型
- Answering Counterfactual Questions:推理事情为什么会发生,想象不同行为的后果,干预要求推理事情会往哪个方向变化,反事实要求推理事情会不会发生
数据特征
- 结构化数据具有高层语义,可以从中提取出因果信息,适用于因果模型
- 非结构化数据无法提供因果信息,但统计模型可以对其有效学习
- 因果表征学习,即从非结构化的数据中提取出可以用于因果推断的结构化变量
因果模型与推断
由独立同分布数据驱动的方法
- 主要对应传统机器学习模型
- 在独立同分布数据驱动下的模型缺乏问题迁移的能力
- 只能捕捉相关性而非因果性
Reichenbach准则:从统计到因果
如果两个可观察量X和Y是统计相关的,那么一定存在一个变量Z因果得影响X和Y,并且可以解释它们之间全部的相关性,即给定Z,X和Y是条件独立的。(Z与X或Y可以重合)
因此因果模型可以区分在统计模型看来一样的不同情况
结构因果模型
-
将变量作为有向无环图的顶点,图的边表示因果关系
-
变量的值由其父节点条件概率及随机噪音决定,写作下面的结构方程
-
不同形式的因果分解,本质上是马尔科夫链
隐变量和混淆因子
上述图模型需要一个因果充分性假设,即不存在未观察到的共同原因变量,未观察到的变量可能会混淆两个观察到的变量,例如它是两个变量的共同原因
干预
修改结构因果模型中结构方程的一部分
统计模型,因果图模型,结构因果模型的区别
- 统计模型也可以被定义成一个图,但边反映的是条件独立而非因果关系
- 因果图模型允许计算干预的分布,当一个变量被干预时,就把它设为固定值,并且切断与其父母节点的边,在新的图中计算出的即为该干预的分布
- 结构因果模型加入了结构方程,可以进一步进行反事实推理
独立因果机制
-
独立因果机制原则:每一个变量身处的因果机制不受其他变量所在的机制影响,也无法给其他机制以提示
-
稀疏机制偏移
小的分布变化倾向于以稀疏或局部的方式在因果分解中表现出来,即它们通常不应该同时影响所有因素
因果发现与机器学习
- 条件独立测试的缺点在于数据量不足和可能无法分辨方向
- 对结构方程的形式进行限制后,一方面可以简化计算,一方面可以限制因果方向
- 不同环境的分布偏移可以帮助辨识因果结构,不同的环境可以理解为不同的任务,因果模型应该比一般的预测模型更快的适应干预
学习因果变量
-
从观察量X中学习到因果变量S,从中提取出的低级表示作用于下游任务
-
对因果变量的干预会改变物体状态
-
通过自编码器来学习因果表征和因果机制
-
模型应具有迁移能力和干预推理能力
对机器学习的启示
- 因果模型不适用于半监督学习
- 因果机制可以使机器学习模型更好的抵御对抗攻击
标签:学习,Towards,变量,模型,干预,Representation,可以,Causal,因果 来源: https://blog.csdn.net/jining11/article/details/115601957