其他分享
首页 > 其他分享> > 机器学习总结

机器学习总结

作者:互联网

机器学习总结



0 前言

机器学习是人工智能的核心,从历史数据中学习信息,总结规律。
学会概率论与数理统计,矩阵分析以及凸优化,机器学习就掌握了大部分。
其中贝叶斯,梯度下降,svd分解在机器学习中较为常用。

1理论部分

1.1 优化问题

机器学习可以抽象为优化问题
未知函数 f : x → y f :x\to y f:x→y
数据集 D ( x i , y i ) \mathcal{D} (x_i,y_i) D(xi​,yi​)
假设函数类 H , h ∈ H \mathcal{H},h\in \mathcal{H} H,h∈H看成约束
损失函数 l o s s ( h ( x i ) , y i ) loss(h(x_i),y_i) loss(h(xi​),yi​)
m i n h E D ( l o s s ( h ( x i ) , y i ) s . t h ∈ H min_h \quad \mathbb{E}^D(loss(h(x_i),y_i)\\ s.t \quad h\in \mathcal{H} minh​ED(loss(h(xi​),yi​)s.th∈H
上述问题称为期望风险极小化,但是实际情况,我们不知道所有数据集,只有样本,上述问题转为
m i n h 1 n ∑ i n ( l o s s ( h ( x i ) , y i ) s . t h ∈ H . min_h \quad \frac{1}{n}\sum_i^n(loss(h(x_i),y_i)\\ s.t \quad h\in \mathcal{H}. minh​n1​i∑n​(loss(h(xi​),yi​)s.th∈H.
称为经验风险极小化。
在这里插入图片描述
从概率角度解释
存在一个未知分布 ( x , y ) ∼ P ( X , Y ) (x,y)\sim P(X,Y) (x,y)∼P(X,Y),
极大似然估计:极大化后验概率 p ( y ∣ x ) p(y|x) p(y∣x)

1.2 泛化

用样本得到的模型再样本之外的数据集性能表现称为泛化。
E i n \mathbb{E}_{in} Ein​:样本期望误差
E o u t \mathbb{E}_{out} Eout​:样本之外数据点的期望误差
大数定理,Hoeffding’s inequality
P [ ( ∣ E i n ( h ) − E o u t ( h ) ∣ ) > ϵ ] ≤ 2 e − 2 ϵ 2 m P[(|\mathbb{E}_{in}(h)-\mathbb{E}_{out}(h)|)>\epsilon]\leq 2e^{-2\epsilon^2m} P[(∣Ein​(h)−Eout​(h)∣)>ϵ]≤2e−2ϵ2m
m为样本个数。
g g g为最优 h h h
对于有限的 H \mathcal{H} H
P [ ( ∣ E i n ( g ) − E o u t ( g ) ∣ ) > ϵ ] ≤ P [ ( ∣ E i n ( h 1 ) − E o u t ( h 1 ) ∣ ) > ϵ ] + P [ ( ∣ E i n ( h 2 ) − E o u t ( h 2 ) ∣ ) > ϵ ] + . . . ≤ 2 ∣ H ∣ e − 2 ϵ 2 m P[(|\mathbb{E}_{in}(g)-\mathbb{E}_{out}(g)|)>\epsilon]\\\leq P[(|\mathbb{E}_{in}(h_1)-\mathbb{E}_{out}(h_1)|)>\epsilon]+P[(|\mathbb{E}_{in}(h_2)-\mathbb{E}_{out}(h_2)|)>\epsilon]+...\\ \leq 2|\mathcal{H}|e^{-2\epsilon^2m} P[(∣Ein​(g)−Eout​(g)∣)>ϵ]≤P[(∣Ein​(h1​)−Eout​(h1​)∣)>ϵ]+P[(∣Ein​(h2​)−Eout​(h2​)∣)>ϵ]+...≤2∣H∣e−2ϵ2m
对于无限的 H \mathcal{H} H
P [ ( ∣ E i n ( g ) − E o u t ( g ) ∣ ) > ϵ ] ≤ 4 m H ( 2 N ) e − 1 8 ϵ 2 N P[(|\mathbb{E}_{in}(g)-\mathbb{E}_{out}(g)|)>\epsilon]\leq 4 m_{\mathcal{H}}(2N)e^{-\frac{1}{8}\epsilon^2N} P[(∣Ein​(g)−Eout​(g)∣)>ϵ]≤4mH​(2N)e−81​ϵ2N
m H ( N ) m_{\mathcal{H}}(N) mH​(N)为增长函数,表示对于 N N N个数据点可以将数据分为几类。
k k k为断点,当 N < k N<k N<k时可以被完全粉碎,即分为 2 N 2^N 2N类。
d v c = k − 1 d_{vc}=k-1 dvc​=k−1
二分类问题最多显然为 2 N 2^N 2N类,不同的假设函数类分类能力不同,如下例子。
m H ( N ) ≤ ∑ i = 0 k − 1 C N i m_{\mathcal{H}}(N)\leq \sum_{i=0}^{k-1}C_N^i mH​(N)≤∑i=0k−1​CNi​
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
给定误差限 δ \delta δ
E o u t ≤ E i n + 8 N l n ( 4 ( ( 2 N ) d v c + 1 ) δ ) \mathbb{E}_{out}\leq \mathbb{E}_{in}+\sqrt{\frac{8}{N}ln(\frac{4((2N)^{d_{vc}}+1)}{\delta})} Eout​≤Ein​+N8​ln(δ4((2N)dvc​+1)​)
降低置信度,增大训练集,慎选假设函数集来提升泛化。

1.3 过拟合

在这里插入图片描述
正则化

1.4 优化算法

一阶算法,二阶算法,牛顿,拟牛顿

2 应用

2.1 SVM

到直线距离最大

2.2 decision tree

未完待续

标签:总结,mathbb,机器,epsilon,学习,mathcal,2N,out,Ein
来源: https://blog.csdn.net/qq_42153494/article/details/117934238