其他分享
首页 > 其他分享> > 无标题

无标题

作者:互联网

文章目录

第三章 判别域代数界面方程

3.1 用判别域界面方程分类的概念

1.分类的基本原理

不用模式对应特征点在不同区域中散布。运用已知类别的训练样本进行学习,产生若干个代数界面d(x)=0d(\vec x)=0d(x)=0,将特征空间划分成一些互不重叠的子区域。

2.判别函数

表示划分界面的函数。

3.线性可分的定义

对于来自两类的一组模式x1,x2,,xN\vec x_1,\vec x_2,\dots,\vec x_Nx1​,x2​,…,xN​,如果能用一个线性判别函数正确分类,则称他们是线性可分的。

4.分类方法的基本技术思路

  1. 利用训练样本求出分类器/判别函数
  2. 利用判别函数对未知类别样本分类

3.2 线性判别函数

一般形式是d(x)=w1x1+w2x2++wnxn+wn+1d(\vec x)=w_1x_1+w_2x_2+\dots+w_nx_n+w_{n+1}d(x)=w1​x1​+w2​x2​+⋯+wn​xn​+wn+1​

w\vec ww称为权矢量或系数矢量

简化为d(x)=wxd(\vec x)=\vec w'\vec xd(x)=w′x

其中x=(x1,x2,,xn,1),w=(w1,w2,,wn,wn+1)\vec x=(x_1,x_2,\dots,x_n,1),\vec w=(w_1,w_2,\dots,w_n,w_{n+1})x=(x1​,x2​,…,xn​,1),w=(w1​,w2​,…,wn​,wn+1​)

x\vec xxw\vec ww分别称为增广特征矢量和增广权矢量。

两类问题

对于两类问题

d(x)=wx{&gt;0xω1&lt;0xω2=0xωid(\vec x)=\vec w&#x27;\vec x\begin{cases} &gt;0\Rightarrow\vec x\in\omega_1\\ &lt;0\Rightarrow\vec x\in\omega_2\\ =0\Rightarrow\vec x\in\omega_i或拒判\\ \end{cases}d(x)=w′x⎩⎪⎨⎪⎧​>0⇒x∈ω1​<0⇒x∈ω2​=0⇒x∈ωi​或拒判​

多类问题

1.ωi/ωˉi\omega_i/\bar\omega_iωi​/ωˉi​两分法(第一种情况)

判别规则为:如果{di(x)&gt;0dj(x)0ji\begin{cases} d_i(\vec x)&gt;0\\ d_j(\vec x)\leqslant0&amp;\forall j\ne i \end{cases}{di​(x)>0dj​(x)⩽0​∀j̸​=i​则判xωi\vec x\in\omega_ix∈ωi​

注意这种方法存在不确定区域

2.ωi/ωj\omega_i/\omega_jωi​/ωj​两分法(第二种情况)

对于任意两类之间分别建立判别函数

判别规则为:如果dij(x)&gt;0,jid_{ij}(x)&gt;0,\forall j\ne idij​(x)>0,∀j̸​=i则判xωi\vec x\in\omega_ix∈ωi​

注意这种方法也存在不确定区域

3.没有不确定区域的ωi/ωj\omega_i/\omega_jωi​/ωj​两分法(第三种情况)

令方法2中的判别函数为dij(x)=di(x)dj(x)=(ωiωj)xd_{ij}(\vec x)=d_i(\vec x)-d_j(\vec x)=(\vec\omega_i-\vec\omega_j)&#x27;\vec xdij​(x)=di​(x)−dj​(x)=(ωi​−ωj​)′x

判别规则为:如果di(x)&gt;dj(x),jid_i(\vec x)&gt;d_j(\vec x),\forall j\ne idi​(x)>dj​(x),∀j̸​=i则判xωi\vec x\in\omega_ix∈ωi​

或者:如果di(x)=maxj[dj(x)]d_i(\vec x)=\max_j[d_j(\vec x)]di​(x)=maxj​[dj​(x)]则判xωi\vec x\in\omega_ix∈ωi​

小结

3.3 判别函数值的鉴别意义、权空间及解空间

数学意义

权空间、解矢量、解空间

3.4 Fisher线性判别

思想:通过Fisher变换转换为利于分类的一维问题

方法:求权矢量w\vec w\Rightarroww⇒求满足上述目标的投影轴方向w0\vec w_0w0​和在一维空间中确定判别规则。

希望经过投影后,类内离差度越小越好,类间离差度越大越好,根据这个目标作准则函数(即Fisher准则函数),并使其最大。

算法过于硬核,告辞

3.5 感知器算法

感知器算法

算法原理步骤

  1. 置步数k=1k=1k=1,令增量ρ=ρ0\rho=\rho_0ρ=ρ0​,分别赋给初始增广权矢量w(1)\vec w(1)w(1)的各分量较小的任意值。
  2. 输入训练模式xk\vec x_kxk​,计算判别函数值w(k)xk\vec w&#x27;(k)\vec x_kw′(k)xk​
  3. 调整增广权矢量

    如果xkω1\vec x_k\in\omega_1xk​∈ω1​和w(k)0\vec w&#x27;(k)\leqslant 0w′(k)⩽0,则w(k+1)=w(k)+ρxk\vec w(k+1)=\vec w(k)+\rho\vec x_kw(k+1)=w(k)+ρxk​

    如果xkω2\vec x_k\in\omega_2xk​∈ω2​和w(k)0\vec w&#x27;(k)\geqslant 0w′(k)⩾0,则w(k+1)=w(k)ρxk\vec w(k+1)=\vec w(k)-\rho\vec x_kw(k+1)=w(k)−ρxk​

    如果xkω1\vec x_k\in\omega_1xk​∈ω1​和w(k)&gt;0\vec w&#x27;(k)&gt;0w′(k)>0,或xkω2\vec x_k\in\omega_2xk​∈ω2​和w(k)&lt;0\vec w&#x27;(k)&lt;0w′(k)<0,则w(k+1)=w(k)\vec w(k+1)=\vec w(k)w(k+1)=w(k)
  4. 如果k&lt;Nk&lt;Nk<N,令k=k+1k=k+1k=k+1,返回2。如果k=Nk=Nk=N,检验判别函数是否都能正确分类,如果是,结束,否则令k=1k=1k=1,返回2。

收敛定理

如果训练模式是线性可分的,感知器算法在有限次迭代后便可以收敛到正确的解矢量。

一次准则函数和梯度下降法

感知器算法在多类问题中的应用

算法过于硬核,告辞

3.6 一般情况下的判别函数权矢量算法

最小错分模式数目准则

分段二次准则函数

最小方差准则及W-H算法

3.7 广义线性判别函数

作非线性变换,将原来一维特征空间映射为二维特征空间,使其为线性可分的。

3.8 二次判别函数

d(x)=xWx+wx+wn+1d(\vec x)=\vec x&#x27;W\vec x+\vec w&#x27;\vec x+w_{n+1}d(x)=x′Wx+w′x+wn+1​

3.9 支持向量机

支持向量机以训练误差作为优化问题的约束条件,以置信范围值最优化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。

由于SVM的求解最后转化为二次规划问题求解,因此SVM的解是全局唯一的最优解。

SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等许多机器学习问题中。

SVM方法的特点

第四章 统计判别

4.0 前提条件

  1. 各类别总体概率密度是已知的
  2. 要判决的类别数是一定的

4.1 最小误判概率判决

判决规则:

如果:l12(x)=p(xω1)p(xω2)P(ω2)P(ω1)l_{12}(\vec x)=\dfrac{p(\vec x|\omega_1)}{p(\vec x|\omega_2)}\gtrless\dfrac{P(\omega_2)}{P(\omega_1)}l12​(x)=p(x∣ω2​)p(x∣ω1​)​≷P(ω1​)P(ω2​)​,则判x{ω1ω2\vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases}x∈{ω1​ω2​​

l12(x)l_{12}(\vec x)l12​(x)为似然比,称θ12\theta_{12}θ12​为似然比阈值,记为P(ω2)P(ω1)\dfrac{P(\omega_2)}{P(\omega_1)}P(ω1​)P(ω2​)​。

对于多类问题,若P(ωix)&gt;P(ωjx),jiP(\omega_i|\vec x)&gt;P(\omega_j|\vec x),\forall j\ne iP(ωi​∣x)>P(ωj​∣x),∀j̸​=i,则判xωi\vec x\in\omega_ix∈ωi​

或者,若P(ωix)=maxj[P(ωjx)]P(\omega_i|\vec x)=\max_j[P(\omega_j|\vec x)]P(ωi​∣x)=maxj​[P(ωj​∣x)],则判xωi\vec x\in\omega_ix∈ωi​


例题:对一批人进行癌症普查,患癌症者定为属ω1\omega_1ω1​类,正常者定为属ω2\omega_2ω2​类。统计资料表明人们患癌的概率P(ω1)=0.005P(\omega_1)=0.005P(ω1​)=0.005,从而P(ω2)=0.995P(\omega_2)=0.995P(ω2​)=0.995。设有一种诊断此病的试验,其结果有阳性反应和阴性反应之分,依其作诊断。化验结果是一维离散模式特征。统计资料表明:癌症者有阳性反映的概率为0.95即P(x=ω1)=0.95P(x=阳|\omega_1)=0.95P(x=阳∣ω1​)=0.95,从而可知P(x=ω1)=0.05P(x=阴|\omega_1)=0.05P(x=阴∣ω1​)=0.05,正常人阳性反映的概率为0.01即P(x=ω2)=0.01P(x=阳|\omega_2)=0.01P(x=阳∣ω2​)=0.01, 可知P(x=ω2)=0.99P(x=阴|\omega_2)=0.99P(x=阴∣ω2​)=0.99。

问有阳性反映的人患癌症的概率有多大?按照最小误判概率准则,阳性反映者应判为哪一类?

解:

P(ω1x=)=P(x=ω1)P(ω1)P(x=)=P(x=ω1)P(ω1)P(x=ω1)P(ω1)+P(x=ω2)P(ω2)=0.95×0.0050.95×0.005+0.01×0.995=0.323\begin{aligned} P(\omega_1|x=阳)&amp;=\dfrac{P(x=阳|\omega_1)P(\omega_1)}{P(x=阳)}\\ &amp;=\dfrac{P(x=阳|\omega_1)P(\omega_1)}{P(x=阳|\omega_1)P(\omega_1)+P(x=阳|\omega_2)P(\omega_2)}\\ &amp;=\dfrac{0.95\times0.005}{0.95\times0.005+0.01\times0.995}\\ &amp;=0.323 \end{aligned}P(ω1​∣x=阳)​=P(x=阳)P(x=阳∣ω1​)P(ω1​)​=P(x=阳∣ω1​)P(ω1​)+P(x=阳∣ω2​)P(ω2​)P(x=阳∣ω1​)P(ω1​)​=0.95×0.005+0.01×0.9950.95×0.005​=0.323​

P(ω2x=)=1P(ω1x=)=0.677P(\omega_2|x=阳)=1-P(\omega_1|x=阳)=0.677P(ω2​∣x=阳)=1−P(ω1​∣x=阳)=0.677

所以xω2\vec x\in\omega_2x∈ω2​

或者似然比形式

l12(x)=P(x=ω1)P(x=ω2)=0.950.01=95l_{12}(x)=\dfrac{P(x=阳|\omega_1)}{P(x=阳|\omega_2)}=\dfrac{0.95}{0.01}=95l12​(x)=P(x=阳∣ω2​)P(x=阳∣ω1​)​=0.010.95​=95

θ12=P(ω2)P(ω1)=0.9950.005=197\theta_{12}=\dfrac{P(\omega_2)}{P(\omega_1)}=\dfrac{0.995}{0.005}=197θ12​=P(ω1​)P(ω2​)​=0.0050.995​=197

l12(x)&lt;θ12xω2\because l_{12}(x)&lt;\theta_{12} \therefore x\in\omega_2∵l12​(x)<θ12​∴x∈ω2​


例题:鱼类加工厂对鱼进行自动分类,ω1\omega_1ω1​:鲈鱼;ω2\omega_2ω2​:鲑鱼。模式特征x=x=x=长度。

已知:先验概率P(ω1)=1/3,P(ω2)=1P(ω1)=2/3P(\omega_1)=1/3,P(\omega_2)=1-P(\omega_1)=2/3P(ω1​)=1/3,P(ω2​)=1−P(ω1​)=2/3

P(x=10ω1=0.05),P(x=10ω2=0.5)P(x=10|\omega_1=0.05),P(x=10|\omega_2=0.5)P(x=10∣ω1​=0.05),P(x=10∣ω2​=0.5)

求:后验概率P(ωx=10)P(\omega|x=10)P(ω∣x=10)

解法1:利用Bayes公式

P(ω1x=10)=P(x=10ω1)P(ω1)P(x=10)=P(x=10ω1)P(ω1)P(x=10ω1)P(ω1)+P(x=10ω2)P(ω2)=0.05×1/30.05×1/3+0.5×2/3=0.048\begin{aligned} P(\omega_1|x=10)&amp;=\dfrac{P(x=10|\omega_1)P(\omega_1)}{P(x=10)}\\ &amp;=\dfrac{P(x=10|\omega_1)P(\omega_1)}{P(x=10|\omega_1)P(\omega_1)+P(x=10|\omega_2)P(\omega_2)}\\ &amp;=\dfrac{0.05\times1/3}{0.05\times1/3+0.5\times2/3}\\ &amp;=0.048 \end{aligned}P(ω1​∣x=10)​=P(x=10)P(x=10∣ω1​)P(ω1​)​=P(x=10∣ω1​)P(ω1​)+P(x=10∣ω2​)P(ω2​)P(x=10∣ω1​)P(ω1​)​=0.05×1/3+0.5×2/30.05×1/3​=0.048​

P(ω2x=10)=1P(ω1x=10)=0.952P(\omega_2|x=10)=1-P(\omega_1|x=10)=0.952P(ω2​∣x=10)=1−P(ω1​∣x=10)=0.952

所以xω2\vec x\in\omega_2x∈ω2​,是鲑鱼

解法2:似然比形式

l12(x=10)=P(x=10ω1)P(x=10ω2)=0.050.5=0.1l_{12}(x=10)=\dfrac{P(x=10|\omega_1)}{P(x=10|\omega_2)}=\dfrac{0.05}{0.5}=0.1l12​(x=10)=P(x=10∣ω2​)P(x=10∣ω1​)​=0.50.05​=0.1

判决阈值θ12=P(ω2)P(ω1)=2/31/3=2\theta_{12}=\dfrac{P(\omega_2)}{P(\omega_1)}=\dfrac{2/3}{1/3}=2θ12​=P(ω1​)P(ω2​)​=1/32/3​=2

l12(x=10)&lt;θ12l_{12}(x=10)&lt;\theta_{12}l12​(x=10)<θ12​,所以xω2\vec x\in\omega_2x∈ω2​,是鲑鱼


4.2 最小损失准则判决

似然比形式

如果P(xω1)P(xω2)P(ω2)(λ21λ22)P(ω1)(λ12λ11)\dfrac{P(\vec x|\omega_1)}{P(\vec x|\omega_2)}\gtrless\dfrac{P(\omega_2)(\lambda_{21}-\lambda_{22})}{P(\omega_1)(\lambda_{12}-\lambda_{11})}P(x∣ω2​)P(x∣ω1​)​≷P(ω1​)(λ12​−λ11​)P(ω2​)(λ21​−λ22​)​,则判x{ω1ω2\vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases}x∈{ω1​ω2​​

记似然比阈值θ12=P(ω2)(λ21λ22)P(ω1)(λ12λ11)\theta_{12}=\dfrac{P(\omega_2)(\lambda_{21}-\lambda_{22})}{P(\omega_1)(\lambda_{12}-\lambda_{11})}θ12​=P(ω1​)(λ12​−λ11​)P(ω2​)(λ21​−λ22​)​

则判决规则为:如果l12(x)θ12l_{12}(\vec x)\gtrless\theta_{12}l12​(x)≷θ12​,则判x{ω1ω2\vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases}x∈{ω1​ω2​​

如果相等,称任判或拒判。

定理

使条件损失最小必然使总的平均损失最小、

当损失函数取0-1时最小损失准则等价于最小误判准则。

第五章 决策树与随机森林

5.1 决策树

概念和特点

对熵的理解

熵是随机变量不确定性的度量,不确定性越大,熵值越大。若随机变量退化成定值,熵为0。同理,均匀分布是最不确定的分布。

熵定义了一个概率分布函数到一个值的映射。

信息增益

当熵和条件熵中的概率由数据估计得到时,所对应的熵和条件熵分别为经验熵和经验条件熵。
信息增益表示得到特征A的信息而使得类X的信息的不确定性减少的程度。

特点

决策树对训练数据有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象。

bootstrap有放回抽样方法

随机森林

随机森林在bagging基础上做了修改。

第六章 人工神经网络

人工神经网络的分类

从信息传递形式上

按照神经元的学习过程

人工神经元模型的三个要素

  1. 一组连接,连接强度由各连接上的权值表示,权值为正表示激活,权值为负表示抑制,另有一个偏置值。
  2. 一个求和单元,用于求取个输入信号的加权和。
  3. 一个非线性的激活函数,起非线性映射的作用,并将神经元的输出幅度限制在一定范围内。

常用的激活函数

硬极限函数、线性函数、对数S形函数、双曲正切S形函数

特点

当分类效果不好时,调整神经元数目等其他参数。函数非线性程度越高,对于BP网络要求越高,则相同的网络逼近效果要差一些,因曾神经元数目对于网络逼近效果也有一定影响,一般来说,隐层神经元数目越多,则BP网络逼近非线性函数的能力越强。

第七章 深度学习

自动提取特征,学习特征

机器学习中,获得好的特征是识别成功的关键

浅层学习的局限

人工神经网络(BP算法):—虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型

SVM、Boosting、最大熵方法(如LR,Logistic Regression):带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)的浅层模型

局限性:有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。

深度学习好处

可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。

深度学习VS神经网络

相同点:二者均采用分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络

不同点:

神经网络的局限性:

  1. 比较容易过拟合,参数比较难调整,而且需要不少技巧;
  2. 训练速度比较慢,在层次比较少(小于等于3)的情况下效果并不比其它方法更优

不采用BP算法的原因

  1. 反馈调整时,梯度越来越稀疏,从顶层越往下,误差校正信号越来越小;
  2. 收敛易至局部最小,
  3. BP算法需要有标签数据来训练,但大部分数据是无标签的;

深度学习训练过程

第一步:采用自下而上的无监督学习

  1. 逐层构建单层神经元。
  2. 每层采用wake-sleep算法逐层调整。

    这个过程可以看作是一个feature learning的过程,是和传统神经网络区别最大的部分。

第二步:自顶向下的监督学习

这一步是在第一步学习获得各层参数进的基础上,利用梯度下降法去微调整个网络参数。

深度学习的第一步实质上是一个网络参数初始化过程。深度学习模型是通过无监督学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。

深度学习具体方法模型

卷积神经网络

CNN的关键技术

局部感受野、权值共享、时间或空间子采样

CNN的优点

CNN的缺点:

构建CNN模型需要大规模有标签数据;处理大尺寸图像耗时较长

第八章 特征提取与选择

模式识别三大核心问题

特征提取的任务

在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,

特征提取的目的是使在最小维数特征空间中类间距离较大,类内距离较小。

选取特征的要求

  1. 具有很好的可分性。
  2. 具有可靠性。
  3. 尽可能强的独立性。
  4. 数量尽量少,同时损失的信息尽量小。

特征提取与特征选择的区别

  1. 特征选择:从L个度量值集合中按一定准则选出供分类用的子集,作为降维(m维,m<L)的分类特征。
  2. 特征提取:使一组度量值L通过某种变换产生新的m个特征作为降维的分类特征,

特征提取与选择的方法

直接选择法,变换法

变换法里的离散K-L变换(DKLT)主成分分析

有限离散K-L变换(DKLT),是一种基于目标统计特性的最佳正交变换。

DKLT的性质

取x的自相关阵Rx或协方差阵Cx的特征矢量矩阵的转置作为变换矩阵的变换称为离散K-L变换。

x=T1y=Ty=i=1nyiti\vec x=T&#x27;^{-1}\vec y=T\vec y=\sum_{i=1}^{n}y_i\vec t_ix=T′−1y​=Ty​=i=1∑n​yi​ti​

离散K-L展开式

λi(Rx)λi(Cx)\lambda_i(R_{\vec x})\geqslant\lambda_i(C_{\vec x})λi​(Rx​)⩾λi​(Cx​)

这表明对于相同的m,第一种估计式比第二种估计式的均方差大。

步骤:

  1. 求样本集{X}的总体自相关矩阵R或协方差矩阵C。
  2. RRR或CCC的特征值λj,j=1,2,,n\lambda_j,j=1,2,\dots,nλj​,j=1,2,…,n。对特征值从大到小排序,选择前ddd个较大的特征值。
  3. 计算ddd个特征值对应的特征向量uj,j=1,2,,d\vec u_j,j=1,2,\dots,duj​,j=1,2,…,d,构成变换矩阵UUU。
  4. {X}\{X\}{X}中的每个XXX进行K-L变换,得到变换后的向量XX^*X∗,X=UTXX^*=U^{\rm T}XX∗=UTX

第九章 句法模式识别

汉字、字符、语言、图像、生物的识别

定义

以结构基元为基础,利用模式的结构信息完成分类的过程。也称为句法模式识别。

基元

指构成模式结构信息的基本单元,本身不包含有意义的结构信息。

理论基础形式

语言

模式描述方法

符号串,树,图

模式判定

用一个文法表示一个类,m类就有m个文法,然后判定未知模式遵循哪一个文法。

在学习过程中,确定基元与基元之间的关系,推断出生成景物的方法。

判决过程中,提取基元,基元连接关系,句法分析。判断类型。

句法模式识别的特点

与自然语言对比

模式\leftrightarrow↔句子

子模式\leftrightarrow↔词组

基元\leftrightarrow↔单词

组合关系\leftrightarrow↔自然语言的文法

符合某个文法的所有句子的集合\leftrightarrow↔一个模式类

句法

文法(类)

文法推断

用已知类别的模式样本集训练类别文法的过程

句法分析

利用文法对未知类别的句法模式进行识别或分类的过程。

字母表,句子,语言,文法

文法分类

0型文法、1型文法、2型文法和3型文法。

标签:10,12,dfrac,判别函数,无标题,vec,omega
来源: https://blog.csdn.net/u011086331/article/details/93167297