其他分享
首页 > 其他分享> > 西瓜书读书笔记 task04

西瓜书读书笔记 task04

作者:互联网

第五章 神经网络

5.1 神经元模型

"神经网络是由具有适应性的 简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实 世界物体所作出的交互反应" [Kohonen, 1988]

理想中的激活函数是图 5 .2(a) 所示的阶跃函数,它将输入值映射为输出值 "0" 或勺"显然 "1" 对应于神经元兴奋,"0" 对应于神 经元抑制.然而,跃函数具有不连 续 、不光滑等不太好的性质,因此实际常 用 Sigmoid函数作为激活函数典型的 Sigmoid 函数如 图 5.2(b) 所示? 它把可能在较大范围内变化的输入值挤压到 (0, 1) 输出值范围内,因此有时也称为 "挤压函
数" (squashi吨 functio)
image
此处的人工神经网络,不是生物学意义上的神经网络

5.2 感知机与多层网络

感知机(Perceptron) 由两层神经元组成,输入层接收外界输入信号后传递给输出层, 输出 层是 M-P 神 经元,亦称"阔值逻辑单元" (threshold logic unit) .

输入层只接受输入而没有权重以及阈值,输出层的神经元有阈值,两层间连接有权重。
把阈值当做是第n+1个权重,第n+1个输入是-1,那么就可以把阈值放进权重里了。那么只需要做权重的学习。
image
根据错误程度进行调整。这样两层神经元只能处理线性问题,而非线性问题则需要多层网络。

更一般的,常见的神经网络是形如 图 5 .6 所示的层级结构,每层神经元与下
image
层神经元全互连 3 神经元之间不存在同层连接, 也不存在跨层连接. 这样的
神经网络结构通常称为" 多层前馈神经网络 " (multi-layer feedforward neuralnetworks) ,其中输入层神经兀接收外界输入?隐层与输出层神经元对信号进行加工,最终结果由输出层神经λ输出:换言之,输入层神经元仅是接受输入,不进行函数处理,隐居与输出层包含功能神经元.因此,图 5.6(a) 通常被称为"两层网络"为避免歧义,本书称其为"单隐层网络"只需包含隐层,即可称为多层网络.神经网络的学习过程,就是根据训练数据来调整神经元之间的"连接权" (connection weight) 以及每个功能神经元的阑值;换言之,神经网络"学"到的东西,蕴涵在连接权与阙值中,

5.3 误差逆传播算法

训练多层网络要比感知机复杂多了,感知机的学习方法是不够的。误差逆传播算法(error BackPropagation,简称BP) 也称为 反向传播算法,是最为成功的一种神经网络学习方法之一。一般而言,BP神经网络 是指用BP算法训练的多层前馈神经网络,但BP算法也能训练其他类型的神经网络,如递归神经网络。
image
image
图 5 .7 的 网络中有 (d + l 十 1) q 十 l 个参数需确定:输入层到隐层的 dxq个权值 、 隐层到输出层的 q x l 个权值 、 q 个隐层神经元的阔值 、l个输出层神
经元的 阔值. BP 是一个法代学习算法,在迭代的每一轮中采用广义的感知机学
习 规则对参数进行更新估计?即与式 (5 .1 )类似,任意参数 υ 的更新估计式为
image

标准BP算法
假设要训练的是一个单隐层的前馈神经网络,BP算法使用 均方误差 作为性能度量,基于 梯度下降(gradient descent) 策略,以目标函数的负梯度方向对参数进行调整。
流程如下:
image
所谓 逆传播 其实就是从输出层开始逐步往后更新,因为输出层的误差确定后就可以对输出层的连接权和阈值进行更新,并且可以推算出隐含层输出的“真实值”,从而计算出隐含层的“误差”,然后更新隐含层的连接权和阈值。BP就是这样一种 利用一层层倒推来最终更新整个神经网络 的方法,每一层的更新公式其实和感知机用的是类似的。
在学习过程中,学习率 $\eta$ 控制着每一轮迭代的更新步长,太大则容易振荡,太小则收敛速度太慢。有时为了 精细调节,输出层和隐含层更新参数时会 使用不同的学习率。

5.4 全局最小与局部极小

局部极小:局部极小解是参数空间中的某个点,其邻域点的误差函数值均不小于该点的函数值。

全局最小:全局最小解则是指参数空间中所有的点的误差函数值均不小于该点的误差函数值。
image

可能存在多个局部极小值,但却只会有一个全局最小值。

“ 全局最小 ” 一定是 “ 局部极小 ”;但“局部极小 ” 不一定是“全局最小 ”。

因此我们的目标是找到 “ 全局最小 ”。

5.5 其他常见神经网络

RBF网络
径向基函数网络,通常为单隐层网络,使用径向基函数作为激活函数。
高斯径向基函数image

ART网络
自适应谐振理论网络。使用竞争学习的思想进行无监督学习。
竞争学习中每一时刻仅有一个竞争获胜的神经元被激活,其他的被抑制。
识别层每个神经元记录一个模式类。计算输入向量与每个神经元的距离值,如果距离小于设定的阈值则激活某一个神经元并抑制其他的,同时更新参数。如果距离都大于阈值则将输入向量设置为新的一类。ART网络缓解了可塑性-稳定性窘境。可以增量学习和在线学习。

SOM网络
自组织(特征)映射网络。将高维数据映射到低维空间并保持数据点之间的拓扑关系。输出层神经元按矩阵形式排列。训练时根据输入选择激活的神经元,同时更新权值使临近神经元与当前样本距离减小。

级联相关网络
属于一种结构自适应网络,网络结构也是学习目标之一。初始情况只有输入和输出,训练过程中逐渐增加隐层单元,通过最大化新单元的输出和误差函数的相关性来训练参数。

Elman网络
是最常用的递归神经网络之一,网络的输出不仅取决于当前输入还取决于上一时间步的输出。隐层神经元的输出参与下一时刻的输入。

Boltzmann机
神经网络中有一类 基于能量的模型(energy-based model),把网络状态定义为一个能量,能量最小时网络达到理想状态,模型的学习过程就是最小化能量函数。Boltzmann机就是这样的模型,同时也是一种RNN。Boltzmann机的神经元 分为显层与隐层,显层用于表达数据的输入与输出,隐层则是数据的内在。每个神经元只有0、1两种状态,也即抑制和激活。标准的Boltzmann机是全连接图,即任意两个神经元之间都相连。但复杂度太高,难以用于解决现实任务,实际应用中用的是 受限Boltzmann机(Restricted Boltzmann Machine,简称RBM),把标准Boltzmann机退化为二部图,只保留显层和隐层之间的连接,同一层直接不相连。

5.6 深度学习

典型深度学习模型就是深层的神经网络,通过增加隐层的数量来增加模型复杂度。多隐层的神经网络难以直接使用BP算法训练,会出现不收敛的情况。主要有两种解决方法。使用无监督逐层训练的方法,每次训练一层隐节点,称为预训练,全部完成后进行微调。使用权共享的思路,让一组神经元使用相同的权。在卷积神经网络中有非常重要的作用。(在CNN中每个卷积层包含多个特征映射,每个池化层基于局部相关性原理进行压采样,其中每一组神经元都使用相同的连接权,减少参数数量。)深度学习可以理解为特征学习或者表示学习。传统机器学习中通过人工设计样本特征,而特征学习通过机器学习技术自适应产生特征。

标签:输出,西瓜,读书笔记,网络,学习,神经网络,task04,输入,神经元
来源: https://www.cnblogs.com/demoyu/p/15055657.html