首页 > 其他分享> > 【统计学习方法】学习笔记——第一章：统计学习及监督学习概论（理论）

【统计学习方法】学习笔记——第一章：统计学习及监督学习概论（理论）

2022-01-10 19:02:36 作者：互联网

统计学习及监督学习概论

第一章：统计学习及监督学习概论
总结
内容来源

本文开始，首先向李航老师表示致敬，我们由衷钦佩李航老师对于统计学习方法的深刻理解和对产业发展巨大的贡献，感谢李航老师的《统计学习方法》给予我们学习该领域的巨大帮助。

第一章：统计学习及监督学习概论

1.1 统计学习

统计学习的特点
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析的学科。

统计学习的主要特点： a. 建立在计算机与网络上的； b. 以数据为研究对象； c. 目的是对数据进行预测与分析； d. 以方法为中心，构建模型； e. 涉及概率论、统计学、计算机等的交叉学科

对象：统计学习研究的对象是数据 (data) 。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，有回到对数据的分析与预测中去。同类数据具有一定的统计规律性。
目的：学习什么样的模型和如何学习模型，通过构建概率统计模型对数据，特别是未知新数据，进行准确的预测与分析，同时提高学习效率。
方法：基于数据构建概率统计模型，从而对数据进行预测与分析。统计学习由监督学习、无监督学习和强化学习等组成。

实现统计学习方法的步骤如下：
（1）得到一个有限的训练数据集合；
（2）确定包含所有可能的模型的假设空间，即学习模型的集合；
（3）确定模型选择的准则，即学习的策略；
（4）实现求解最优模型的算法，即学习的算法；
（5）通过学习方法选择最优模型；
（6）利用学习的最优模型对新数据进行预测或分析。

统计学习的研究
一般包括统计学习方法、统计学习理论及统计学习应用三个方面，可概述如下：

（1）统计学习方法的研究旨在开发新的学习方法；
（2）统计学习理论的研究在于探求统计学习方法的有效性和效率，以及基本的理论问题；
（3）统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去。

统计学习的重要性

统计学习的重要性主要体现如下：
（1）统计学习是处理海量数据的有效方法；
（2）统计学习是计算智能化的有效手段；
（3）统计学习是计算机科学发展的一个重要部分。

1.2 统计学习的基本分类

统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

1.2.1 监督学习

监督学习（supervised learning）是指从标注数据中学习预测模型的机器学习问题。标注数据表示从输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质就是学习输入到输出的映射的统计规律。
（1）输入空间、输出空间和特征空间

输入空间（input space）：输入所有可能取值的集合
输出空间（output space）：输出所有可能取值的集合
特征空间（feature space）：所有特征向量存在的空间

注1：输入与输出空间可以是有限元素的集合，也可以是整个欧式空间；输入空间与输出空间可以是同一个空间，也可以是不同的空间；通常输出空间远远小于输入空间。
注2：每个具体的输入是一个实例（instance），通常由特征空间（feature vector）表示，这是，所有特征向量存在的空间称为特征空间（feature space）。
注3：特征空间的每一维对应一个特征。有时假设输入空间与特征空间为相同的空间，对它们不予区分；有时假设输入空间与特征空间为不同的空间，将实例从输入空间映射到特征空间。

监督学习从训练数据（training data）集合中学习模型，对测试数据（test data）进行预测。

训练数据由输入（或特征向量）与输出对组成，训练集通常表示维 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}。
测试数据也由相同的输入和输出对组成，输入与输出对又称为样本（sample）或样本点。

在监督学习中，将输入和输出看作是定义在输入空间和输出空间上的随机变量的取值。

回归问题：输入变量与输出变量均为连续变量的预测问题。
分类问题：输出变量为有限个离散变量的预测问题。
标注问题：输入变量与输出变量均为变量序列的预测问题。

（2）联合概率分布
监督学习假设输入与输出的随机变量 X X X和 Y Y Y遵循联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)。
P ( X , Y ) P(X, Y) P(X,Y)表示分布函数，或分布密度函数。统计学习假设数据存在一定的统计规律，训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)独立同分布产生的。

（3）假设空间

模型属于输入空间到输出空间的映射的集合，这个集合就是假设空间。假设空间也即意味着监督学习所要学习的范围。
监督学习的模型可以是概率模型或非概率模型，由条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 或决策函数(decision function) Y = f ( X ) Y=f(X) Y=f(X) 表示。

（4）问题的形式化
监督学习分为学习和预测两个过程，由学习系统与预测系统共同完成，可以用图1.1来描述。
监督学习问题

1.2.2 无监督学习

无监督学习（unsupervised learning）是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据，预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
无监督学习可用于对已有数据的分析，也可用于对未来数据的预测。它和监督学习有类似的流程，如图1.2所示。

1.2.3 强化学习

强化学习（reinforcement learning）是指智能系统与环境的连续互动中学习最优行为策略的机器学习问题。强化学习的本质是学习最优的序贯决策。强化学习过程中，智能系统不断地试错，以达到学习最优策略的目的。智能系统与环境的互动如图1.3所示。

1.2.4 半监督学习与主动学习

半监督学习（semi-supervised learning） 是指利用标注数据和未标注数据学习预测模型的机器学习问题。半监督学习旨在利用未标注数据中的信息，辅助标注数据进行监督学习，以较低的成本达到较好的学习效果。
主动学习（active learning） 是指机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。主动学习旨在找出对学习最有帮助的实例让教师标注，以较小的标注代价，达到较好的学习效果。

1.3 统计学习方法三要素

统计学习方法由模型、策略和算法三要素构成。

1.3.1 模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
在本书中，称由决策函数表示的模型为非概率模型，由条件概率模型表示的模型为概率模型。
1）假设空间用 F \mathcal{F} F假设空间可以定义为决策函数的集合（（非概率模型））：
F = { f ∣ Y = f ( X ) } \mathcal{F}=\{f | Y=f(X)\} F={f∣Y=f(X)}
其中的X和Y分布是定义在输入空间 X \mathcal{X} X和输出空间 Y \mathcal{Y} Y上的随机变量，此时 F \mathcal{F} F通常是由一个参数向量决定的函数族：
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F} = \{f | Y=f_\theta (X),\theta \in R^n\} F={f∣Y=fθ(X),θ∈Rn}
参数 θ \theta θ取值于n维欧氏空间 R n R^n Rn，称为参数空间（parameter space）。

2）假设空间定义为条件概率的集合（概率模型）：
F = { P ∣ P ( Y ∣ X ) } \mathcal{F}=\{P|P(Y|X)\} F={P∣P(Y∣X)}
其中的X和Y分别定义在输入空间 X \mathcal{X} X和输出空间 Y \mathcal{Y} Y上的随机变量，此时 F \mathcal{F} F通常是由一个参数向量决定的条件概率分布族：
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } \mathcal{F}=\{P | P_\theta (Y|X), \theta \in R^n\} F={P∣Pθ(Y∣X),θ∈Rn}

1.3.2 策略

统计学习的目标在于从假设空间中选取最优模型。
1）损失函数、风险函数

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
损失函数是 f ( X ) f(X) f(X)和 Y Y Y的非负实值函数，记作 L ( Y , f ( X ) ) L(Y, f(X)) L(Y,f(X))，其中， f ( X ) f(X) f(X)为这个输出的预测值， Y Y Y为真实值。常见损失函数有以下几种：
1. 0-1损失函数（0-1 loss function）： L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) } L(Y,f(X))=\begin{Bmatrix} 1, & Y\ne f(X)\\ 0, & Y = f(X) \end{Bmatrix} L(Y,f(X))={1,0,Y=f(X)Y=f(X)}
2. 平方损失函数（quadratic loss function）： L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2
3. 绝对损失函数（absolute loss function）： L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣
4. 对数损失函数（logarithmic loss function）或对数似然损失函数（log-likelihood loss function）： L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y, P(Y|X))= -logP(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)

损失函数越小，模型就越好。由于模型的输入输出 ( X , Y ) (X,Y) (X,Y)是随机变量，遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y)，所以损失函数的期望是：
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ x × y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x \times y} {L(y,f(x))P(x,y)dxdy} Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy

这是理论上模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失，称为风险函数或期望损失。学习的目标就是选择期望风险最小的模型。由于联合分布是未知的，所以期望不能直接计算，所以才需要进行学习。这样一来，一方面根据期望风险最小学习模型要用到联合分布，另一方面联合分布又是未知的，所以监督学习就成为一个病态问题(ill-formed problem)。

给定一个训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}，模型 f ( X ) f(X) f(X)关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失(empirical loss)，记作 R e m p : R_{emp}: Remp:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) Remp(f)=N1i=1∑NL(yi,f(xi))

期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练样本集的平均损失。根据大数定律，当样本容量趋于无穷时，经验风险趋于期望风险。所以可以用经验风险估计期望风险。但是，由于现实中训练样本数目有限，甚至很小，所以用经验风险估计期望风险常常不理想，要对经验风险进行一定矫正。这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

经验风险最小化与结构风险最小化
经验风险最小化的策略认为，经验风险最小的模型是最优的模型。根据这一策略，按照经验风险最小化求最优模型就是求解最优化问题：
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i)) f∈FminN1i=1∑NL(yi,f(xi))
其中，KaTeX parse error: Undefined control sequence: \matchcal at position 1: \̲m̲a̲t̲c̲h̲c̲a̲l̲{F}是假设空间。

当样本容量足够大时，经验风险最小化能够保证有很好的学习效果，在现实中被广泛采用。比如极大似然估计（maximum likelihood estimation）就是经验风险最小化的例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。但是当样本容量小时，经验风险最小化学习的效果就未必好，可能出现后面叙述的“过拟合”现象。

结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。 结构风险的定义是：
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i)) + \lambda J(f) Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
其中， J ( f ) J(f) J(f)为模型的复杂度，是定义在假设空间KaTeX parse error: Undefined control sequence: \matchcal at position 1: \̲m̲a̲t̲c̲h̲c̲a̲l̲{F}上的泛函。模型 f f f越复杂， J ( f ) J(f) J(f)就越大。也就是说，复杂度表示了对复杂模型的惩罚。 λ > = 0 \lambda >=0 λ>=0是系数，用于权衡经验风险和模型复杂度。结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的预测数据都有较好的预测。

比如贝叶斯估计中的最大后验概率估计（maximun posterior probability estimator, MAP）就是结构风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。

结构风险最小化的策略认为结构风险最小的模型是最优的模型。这样，监督学习问题就变成了经验风险或结构风险函数的最优化问题和。这时经验或结构风险函数是最优化的目标函数。

1.3.3 算法

算法是指学习模型的具体计算方法。统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法。如果最优化问题有显式的分析解，这个最优化问题就比较简答。但通常解析解不存在，这就需要用数值计算的方法求解。

1.4 模型评估与模型选择

选择模型时，该模型要对已知数据和未知数据都有很好的预测能力。当损失函数给定时，基于损失函数的模型的训练误差（training error）和模型的测试误差（test error）就自然成为学习方法评估的标准。注意。统计学习方法具体采用的损失函数未必是评估时使用的损失函数。

那么该如何评估模型的好坏呢？下面给出两个基于损失函数的学习方法评估标准：模型的训练误差、模型的预测误差。假设学习到的模型是 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^(X)，

训练误差是模型 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^(X)关于训练数据集的平均损失：
R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat{f}(x_i)) Remp(f^)=N1i=1∑NL(yi,f^(xi))
其中N是训练样本容量。
测试误差是模型 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^(X)关于测试数据集的平均损失：
e t e s t = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}L(y_i,\hat{f}(x_i)) etest=N′1i=1∑N′L(yi,f^(xi))
其中 N ′ N' N′是测试样本容量。

例如，当损失函数是0-1损失时，测试误差就变成了常见的测试数据集上的误差率（error rate）：
e t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i ≠ f ^ ( x i ) ) e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_i\ne \hat{f}(x_i)) etest=N′1i=1∑N′I(yi=f^(xi))
这里 I I I是指示函数（indicator function）。即 y = f ^ ( x ) y=\hat{f}(x) y=f^(x)时为1，否则为0。

相应地，常见的测试数据集上的准确率（accuracy）为：
r t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i = f ^ ( x i ) ) r_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_i = \hat{f}(x_i)) rtest=N′1i=1∑N′I(yi=f^(xi))
显然， r t e s t + e t e s t = 1 r_{test}+e_{test}=1 rtest+etest=1。

训练误差的大小，是判断给定的问题是不是一个容易学习的问题，但本质上不重要。测试误差反映了学习方法对未知的测试数据集的预测能力，重要。显然，当给定两种学习方法时，测试误差小的方法具有更好的预测能力，更有效。通常，将学习方法对未知数据的预测能力称为泛化能力（generalization ability）。
过拟合与模型选择
模型复杂度。参数个数越多，模型的复杂程度越高。假设存在一个“真”模型，我们所选择的模型应该与真模型有相同个数的参数，所选择模型的向量与真模型的参数向量应相近。如果一味追求对数据的预测能力，所选模型复杂度往往会比真模型高，这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多，以至于这一模型对已知数据预测的很好，对未知数据预测的很差的现象。我们应该在给定模型复杂度的情况下，按照经验风险最小化的策略求解模型中的参数。

模型选择时，不仅应该考虑对已知数据的预测能力，也应该考虑对未知数据的预测能力。随着模型复杂度的增加，训练误差会减小，直至趋向于0，但是测试误差会先减小后增大。应选择复杂度适当的模型，以达到使测试误差最小。

1.5 正则化与交叉验证

1.5.1 正则化

模型选择的典型方法是正则化(regulation)。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。一般具有如下的形式：
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min_{f \in \mathcal{F}} \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
利用正则化进行模型选择的方法符合奥卡姆剃刀原理，即在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型。

1.5.2 交叉验证

另一种模型选择的典型方法是交叉验证(cross validation)。它的基本思想是重复地使用数据，把给定的数据进行切分，将切分的数据集组合为训练集和测试集，在此基础上反复地进行训练、测试以及模型选择。

如果给定的样本数据充足，进行模型选择的简单方法是随机地将数据集分为三部分：训练集、验证集、测试集。

训练集用于训练模型；验证集用于模型的选择；测试集用于最终对学习方法的评估。

但是在许多实际应用中数据是不充足的，为了选择好的模型，可以采用交叉验证方法。交叉验证的种类：

简单交叉验证：首先随机地将数据分为训练集和测试集两部分；然后用训练集在各种条件下（不同参数个数）训练模型，得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。
S 折交叉验证（应用最多）：首先随机地将已给数据切分为 S 个互不相交的大小相同的子集；然后利用 S-1 个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的 S 种选择重复进行；最后选出 S 次评测中平均测试误差最小的模型。
留一交叉验证：S 折交叉验证的特殊情形（S=N），往往在数据缺乏的情况下使用。

1.6 泛化能力

学习方法的泛化能力（generalization ability） 是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。
现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的，很有可能由此得到的评价结果是不可靠的。泛化误差就是所学到的模型的期望风险。

1.7 生成模型与判别模型

监督学习方法又可以分为生成方法和判别方法，所学到的模型分别称为生成模型（generative model）和判别模型（discriminative model）。

生成方法由数据学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)，然后求出条件概率分布 P ( Y ∣ X ) P(Y∣X) P(Y∣X)作为预测的模型（即生成模型）：
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X, Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
之所以被称之为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。注意：生成方法可以还原出联合概率分布 P(X,Y)。典型的生成模型有：朴素贝叶斯法、隐马尔科夫模型。
生成方法的特点：
（1）生成方法可以还原出联合概率分布P(X,Y)；
（2）生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；
（3）生成方法适用于存在隐变量的学习。
判别方法是由数据学习决策函数 f ( X ) f(X) f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测模型（即判别模型）。判别方法关心的是对给定的输入X，应该预测什么样的输出Y。典型的判别模型包括：k近邻法、感知器、决策树、逻辑回归、最大熵模型、支持向量机、提升方法、条件随机场等。
判别方法的特点：
（1）判别方法直接学习条件概率 P ( Y ∣ X ) P(Y∣X) P(Y∣X)或决策函数 f ( X ) f(X) f(X)，直接面对预测，往往学习的准确率更高；
（2）判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

1.8 监督学习应用

监督学习的应用主要在三个方面：分类问题、标注问题和回归问题。

1.8.1 分类问题

当输出变量Y取有限个离散值时，预测问题便成为分类问题。

评价分类器性能的指标有很多，以下分别介绍。

准确率：对于给定的测试集，分类器正确分类的样本数与总样本数之比。
对于二分类问题，以关注的类为正类，其他类为父类，以下是二分类的混淆矩阵。

准确率： A = T P + T N P + N A=\frac{TP+TN}{P+N} A=P+NTP+TN
精确度： P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率： R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
F1值: 精确度和召回率的调和均值， 2 F 1 = 1 P + 1 R \frac{2}{F1}=\frac{1}{P}+\frac{1}{R} F12=P1+R1

1.8.2 标注问题

标注问题是分类问题的一个推广，其输入是一个观测序列，输出是标记序列或是状态序列，与分类问题的区别是：分类问题输出是离散值，标注问题输出一个向量，向量的每个值属于一种标记类型。输入变量与输出变量均为变量序列的预测问题称为标注问题。

标注问题体现在语音、自然语言中，其上下文之间存在时序和逻辑的连续性，需要考虑新的表征方式以揭示这样的关系，而不能简单使用向量或者连续值代替。

1.8.3 回归问题

输入变量与输出变量均为连续变量的预测问题称为回归问题。例如预测明天的天气温度，这是一个回归问题。按照输入变量的个数，分为一元回归和多元回归。按照输入变量和输出变量之间的关系的类型，可分为线性回归和非线性回归。
分类问题与回归问题的区别：

总结

统计学习或机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、无监督学习和强化学习。
统计学习方法三要素 —— 模型、策略、算法，对理解统计学习方法起到提纲挈领地作用。
监督学习可以概述如下：从给定有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设空间，应用某一评价准则，从假设空间中选取一个最优的模型，使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
统计学习中，进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差，就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。
分类问题、标注问题和回归问题都是监督学习的重要问题。

内容来源

《统计学习方法》李航著
https://blog.csdn.net/ftiasch_/article/details/120779041
https://www.cnblogs.com/noluye/p/11241843.html

标签：方法,模型,学习,监督,统计,数据,概论
来源： https://blog.csdn.net/ARPOSPF/article/details/120681962