首页 > 其他分享> > 李宏毅《机器学习》| 深度学习Deep Learning简介

李宏毅《机器学习》| 深度学习Deep Learning简介

2022-01-16 17:02:50 作者：互联网

一、历史

二、步骤

Step1：神经网络(Neural network)

完全连接前馈神经网络(Fully Connected Feedforward Network)

矩阵计算(Matrix Operation)

一、历史

1958: Perceptron (linear model)

1969: Perceptron has limitation

1980s: Multi-layer perceptron——Do not have significant difference from DNN today

1986: Backpropagation——Usually more than 3 hidden layers is not helpful

1989: 1 hidden layer is “good enough”, why deep?

2006: RBM initialization (breakthrough)

2009: GPU——非常关键，使用GPU矩阵运算可以节省很多时间

2011: Start to be popular in speech recognition

2012: win ILSVRC image competition

感知机(Perceptron)非常像逻辑回归(Logistics Regression)，只不过没有sigmoid激活函数

二、步骤

Step1：神经网络(Neural network)

神经网络中的节点，类似于神经元。

神经网络有很多不同的连接方式，从而产生不同的结构（structure）。在这个神经网络中，有很多逻辑回归函数，其中每个逻辑回归函数都有自己的权重和偏差，即参数θ。这些神经元的连接方式可以手动设计。

完全连接前馈神经网络(Fully Connected Feedforward Network)

概念：前馈(feedforward)也称为前向，从信号流向来理解就是输入信号进入网络后，信号流动是单向的，即信号从前一层流向后一层，一直到输出层，其中任意两层间的连接没有反馈(feedback)，即信号没有从后一层又返回到前一层。

当已知权重和偏差时输入(1,−1)和(0,0)的结果如下：

所以一个权重和偏差都已知的神经网络可以看成一个函数，输入是一个向量，对应的输出也是一个向量。

不论是回归模型(linear model)还是逻辑回归(logistics regression)，都是定义了一个函数集(function set)。我们可以给上面的结构的参数设置不同的数，即不同的函数(function)，这些可能的函数结合起来就是一个函数集。这时的函数集较大，是以前的回归等模型无法包含的函数，所以说深度学习(Deep Learning)能表达出以前所不能表达的情况。

理解：1层输入层（Input Layer）；N层隐藏层（Hidden Layer）；1层输出层（Output Layer）。

全连接：layer1与layer2之间两两都有连接，所以叫做Fully Connect；

前馈：传递的方向是由后往前传，所以叫做Feedforward。

深度：Deep = Many hidden layer，到底可以有几层就很难说了

随着层数变多，错误率降低，随之运算量增大，通常都是超过亿万级的计算。对于这样复杂的结构，亿万级的计算，使用loop循环效率很低。下面引入矩阵计算提高运算的速度以及效率。

矩阵计算(Matrix Operation)

计算方法：sigmoid（权重w*输入+偏移量b）= 输出，其中sigmoid更一般来说是激活函数(activation function)，现在已很少用sigmoid来当做激活函数。

当有很多层时： $a^{1}=\sigma(w^{1}*x+b^{1})$ ， $a^{2}=\sigma(w^{2}*a^{1}+b^{2})$ ，...， $y=\sigma(w^{L}*a^{L-1}+b^{L})$

计算方法就像是嵌套，所以整个神经网络运算相当于一连串的矩阵运算。从结构上看每一层的计算都是一样的，即用计算机进行并行矩阵运算。这样写成矩阵运算的好处是，可以使用GPU加速。

本质：通过隐藏层进行特征转换。把隐藏层通过特征提取（Feature Extracor）替代原来的特征工程（Feature Engineering），这样在最后一个隐藏层输出的就是一组新的特征（相当于黑箱操作）。对于输出层，其实是把前面隐藏层的输出当做输入（经过特征提取得到的一组最好的特征），然后通过一个多分类器（可以是softmax函数）得到最后的输出y。

示例：手写数字识别。输入：一个16*16=256维的向量，每个pixel对应一个dimension，有颜色(ink)用1表示，没有颜色(no ink)用0表示。输出：10个维度，每个维度代表一个数字的置信度。

从输出结果来看，每一个维度对应输出一个数字，是数字2的概率为0.7的概率最大。说明这张图片是2的可能性就是最大的。

这个问题中唯一需要的就是一个函数，输入是256维的向量，输出是10维的向量，我们要求的就是神经网络这个函数。

神经网络的结构决定了函数集（function set），所以说网络结构（network structured）很关键。

问题：

1.多少层？每层有多少神经元？

这个需要用尝试加上直觉的方法来进行调试。对于有些机器学习相关的问题，我们一般用特征工程来提取特征，但对于深度学习，我们只需设计神经网络模型来进行就可以了。对语音识别和影像识别，深度学习是个好的方法，因为特征工程提取特征并不容易。

2.结构可以自动确定吗？

有很多设计方法可以让机器自动找到神经网络的结构，如进化人工神经网络(Evolutionary Artificial Neural Networks)，但是这些方法并不是很普及。

3.可以自己设计网络结构吗？

可以，如CNN卷积神经网络（Convolutional Neural Network）

Step2：模型评估

损失示例

一般采用损失函数反应模型的好差，所以对神经网络来说，我们采用交叉熵（cross entropy）函数来对 $y$ 和 $\hat{y}$ 的损失进行计算，接下来就是调整参数，让交叉熵越小越好。

总体损失

对于损失，不单单要计算一笔数据，而是计算整体所有训练数据的损失，然后把所有训练数据的损失加起来得到一个总体损失L。接下来就是在function set里找到一组能最小化总体损失L的函数，或找一组最小化总体损失L的神经网络的参数θ。

Step3：选择最优函数

用梯度下降找到最优的函数和最好的一组参数。

具体流程：θ是一组包含权重和偏差的参数集合，随机找一个初试值，计算每个参数对应的偏微分，得到一个偏微分的集合∇L就是梯度。有了这些偏微分，就可以不断更新梯度得到新的参数，这样不断反复进行，就能得到一组最好的参数，使得损失函数的值最小。

在神经网络中计算损失最好的方法就是反向传播，我们可以用很多框架来进行计算损失，比如TensorFlow，theano，Pytorch等等。

三、思考

隐藏层是否越多越好？

普遍性定理

参数多的model拟合数据很好是很正常的。下面有一个通用的理论：对于任何一个连续的函数，都可以用足够多的隐藏层来表示。那为什么还需要“深度”学习呢，直接用一层网络表示不可以吗？

标签：输出,函数,李宏毅,矩阵,损失,神经网络,计算,Deep,Learning
来源： https://blog.csdn.net/qq_40857571/article/details/122522682