其他分享
首页 > 其他分享> > 深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning

深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning

作者:互联网

在这里插入图片描述
目录

Probabilistic Graphical Models

Statistical and Algorithmic Foundations of Deep Learning

Author: Eric Xing

01 An overview of DL components

Historical remarks: early days of neural networks

我们知道生物神经元是这样的:
在这里插入图片描述
上游细胞通过轴突(Axon)将神经递质传送给下游细胞的树突。 人工智能受到该原理的启发,是按照下图来构造人工神经元(或者是感知器)的。
在这里插入图片描述
类似的,生物神经网络 —— > 人工神经网络
![在这里插入图片描述](https://www.icode9.com/i/ll/?i=2020051209264072.png?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L05HVWV2ZXIxNQ==,size_16,color_FFFFFF,t_70Reverse-mode automatic differentiation (aka backpropagation)

Reverse-mode automatic differentiation (aka backpropagation)

下面我们来看看具体的感知器学习算法。
在这里插入图片描述
假设这是一个回归问题x->y,\(y = f(x)+\eta\)$, 则目标函数为
在这里插入图片描述
为了求出该函数的解,我们需要对其求导,具体的:

其中
在这里插入图片描述

由此\(w\)的更新公式为:
在这里插入图片描述

下面我们来说说神经网络模型:
在这里插入图片描述
其中,隐藏单元没有目标。

人工神经网络不过是可以由计算图表示的复杂功能组成。
在这里插入图片描述
通过应用链式规则并使用反向累积,我们得到:
在这里插入图片描述
该算法通常称为反向传播。 如果某些功能是随机的怎么办?使用随机反向传播!现代软件包可以自动执行此操作(稍后再介绍)

Modern building blocks: units, layers, activations functions, loss functions, etc.

常用激活函数:

网络层:

也就是说基本构成要素的可以任意组合,如果有多种损失功能的话,可以实现多目标预测和转移学习等。 只要有足够的数据,更深的架构就会不断改进。

Feature learning
成功学习中间表示[Lee et al ICML 2009,Lee et al NIPS 2009]
在这里插入图片描述
表示学习:网络学习越来越多的抽象数据表示形式,这些数据被“解开”,即可以进行线性分离。

02 Similarities and differences between GMs and NNs

Graphical models vs. computational graphs

Graphical models:

Utility of the loss function

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Deep neural networks :

Utility of the network

在这里插入图片描述

到目前为止,图形模型是概率分布的表示,而神经网络是函数近似器(无概率含义)。有些神经网络实际上是图形模型(即单位/神经元代表随机变量):

接下来我们会逐一介绍他们。

I: Restricted Boltzmann Machines
受限玻尔兹曼机器,缩写为RBM。 RBM是用二部图(bi-partite graph)表示的马尔可夫随机场,图的一层/部分中的所有节点都连接到另一层中的所有节点; 没有层间连接。
在这里插入图片描述
联合分布为:
在这里插入图片描述
单个数据点的对数似然度(不可观察的边际被边缘化):
在这里插入图片描述
对数似然比的梯度 模型参数:
在这里插入图片描述
对数似然比的梯度 参数(替代形式):
在这里插入图片描述
两种期望都可以通过抽样来近似, 从后部采样是准确的(RBM在给定的h上分解)。 通过MCMC从关节进行采样(例如,吉布斯采样)

在神经网络文献中:

通过随机梯度下降(SGD)优化给定数据的模型对数似然来完成学习, 第二项(负相)的估计严重依赖于马尔可夫链的混合特性,这经常导致收敛缓慢并且需要额外的计算。

II: Sigmoid Belief Networks
在这里插入图片描述
Sigimoid信念网是简单的贝叶斯网络,其二进制变量的条件概率由Sigmoid函数表示:
在这里插入图片描述
贝叶斯网络表现出一种称为“解释效应”的现象:如果A与C相关,则B与C相关的机会减少。 ⇒在给定C的情况下A和B相互关联。
在这里插入图片描述
值得注意的是, 由于“解释效应”,当我们以信念网络中的可见层为条件时,所有隐藏变量都将成为因变量。

Sigmoid Belief Networks as graphical models

尼尔提出了用于学习和推理的蒙特卡洛方法(尼尔,1992年):
在这里插入图片描述
RBMs are infinite belief networks
要对模型参数进行梯度更新,我们需要通过采样计算期望值。

条件分布\(p(v| h)\)和\(p(h|v)\)用sigmoid表示, 因此,我们可以将以RBM表示的联合分布中的Gibbs采样视为无限深的Sigmoid信念网络中的自顶向下传播!
在这里插入图片描述
RBM等效于无限深的信念网络。当我们训练RBM时,实际上就是在训练一个无限深的简短网, 只是所有图层的权重都捆绑在一起。如果权重在某种程度上“统一”,我们将获得一个深度信仰网络。

Deep Belief Networks and Boltzmann Machines

III: Deep Belief Nets
在这里插入图片描述
DBN是混合图形模型(链图)。其联合概率分布可表示为:
在这里插入图片描述

其中蕴含的挑战:
由于explaining away effect,因此在DBN中进行精确推断是有问题的
训练分两个阶段进行:

Layer-wise pre-training

Fine-tuning

Setting A: Unsupervised learning (DBN → autoencoder)

  1. Pre-train a stack of RBMs in a greedy layer-wise fashion
  2. “Unroll” the RBMs to create an autoencoder
  3. Fine-tune the parameters by optimizing the reconstruction error(重构误差)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Setting B: Supervised learning (DBN → classifier)

  1. Pre-train a stack of RBMs in a greedy layer-wise fashion
  2. “Unroll” the RBMs to create a feedforward classifier
  3. Fine-tune the parameters by optimizing the reconstruction error

Deep Belief Nets and Boltzmann Machines
在这里插入图片描述
DBMs are fully un-directed models (Markov random fields). Can be trained similarly as RBMs via MCMC (Hinton & Sejnowski, 1983). Use a variational approximation(变分近似) of the data distribution for faster training (Salakhutdinov & Hinton, 2009). Similarly, can be used to initialize other networks for downstream tasks

A few critical points to note about all these models:

Conclusion

03 Combining DL methods and GMs

Using outputs of NNs as inputs to GMs

Combining sequential NNs and GMs
HMM:隐马尔可夫
在这里插入图片描述
Hybrid NNs + conditional GMs
在这里插入图片描述
In a standard CRF条件随机场, each of the factor cells is a parameter.
In a hybrid model, these values are computed by a neural network.
在这里插入图片描述
在这里插入图片描述

GMs with potential functions represented by NNs q NNs with structured outputs

Using GMs as Prediction Explanations

在这里插入图片描述
!!!! How do we build a powerful predictive model whose predictions we can interpret in terms of semantically meaningful features?

Contextual Explanation Networks (CENs)

在这里插入图片描述

CEN: Implementation Details
在这里插入图片描述
Workflow:

Results: imagery as context
在这里插入图片描述
Based on the imagery, CEN learns to select different models for urban and rural

Results: classical image & text datasets
在这里插入图片描述
CEN architectures for survival analysis
在这里插入图片描述

04 Bayesian Learning of NNs

Bayesian learning of NN parameters q Deep kernel learning

A neural network as a probabilistic model: Likelihood: \(p(y|x, \theta)\)

Bayesian learning [MacKay 1992, Neal 1996, de Freitas 2003]
在这里插入图片描述

标签:Graphical,Algorithmic,Learning,models,DL,Deep,learning,GMs,NNs
来源: https://www.cnblogs.com/joselynzhao/p/12878001.html