task 03 集成模式
作者:互联网
Task01开始啦:
决策树(上),截止时间:10月21日03:00
-------
【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/01_tree_ensemble/02_ensemble.html#part-b
主要学习知识点:
【练习1】左式第四个等号为何成立?
当
c
o
v
(
E
D
[
f
^
D
]
−
f
^
D
,
ϵ
)
=
0
cov(\mathbb{E}_{D}[\hat{f}_D] - \hat{f}_D, \epsilon) = 0
cov(ED[f^D]−f^D,ϵ)=0
【练习2】有人说Bias-Variance Tradeoff就是指“一个模型要么具有大的偏差,要么具有大的方差”,你认为这种说法对吗?你能否对“偏差-方差权衡”现象做出更准确的表述?
不对。
更准确的表达是,对于那些偏差比较小的模型,其对训练数据集的拟合能力也就越好,学习到了很多关于特征和输出之间的关系,有了这种性质之后,对于新的信息,我们预测能力就比较差,因为我们模型携带了太多关于原始(训练)数据的信息,所以对于新的数据集(测试集)的学习能力就比较弱,产生的波动比较大。
同理,对于那些方差比较小的模型,其模型的变化情况不会太大。
【练习3】假设总体有100个样本,每轮利用bootstrap抽样从总体中得到10个样本(即可能重复),请求出所有样本都被至少抽出过一次的期望轮数。(通过本文介绍的方法,我们还能得到轮数方差的bound)
抽到n个不同的样本的次数期望为:
E
(
T
)
=
E
(
t
1
+
t
2
+
⋯
+
t
n
)
=
n
⋅
H
n
\begin{aligned} \mathrm{E}(T) &= \mathbb{E}(t_1 + t_2 + \cdots + t_n) \\ &= n \cdot H_n \end{aligned}
E(T)=E(t1+t2+⋯+tn)=n⋅Hn
其中
H
n
H_n
Hn为harmonic number(调和数),取值为:
E
=
n
⋅
H
n
=
n
log
n
+
γ
n
+
1
2
+
O
(
1
/
n
)
\mathrm{E} = n \cdot H_n = n \log n + \gamma n + \cfrac{1}{2} + O(1/n)
E=n⋅Hn=nlogn+γn+21+O(1/n)
当我们已经收集到
k
k
k个不同的样本之后,再累计收集到
n
n
n个样本所需要的抽样此为的期望为:
E
(
T
k
)
=
E
(
t
k
+
1
+
t
k
+
2
+
⋯
+
t
n
)
=
n
⋅
(
1
1
+
1
2
+
⋯
+
1
n
−
k
)
=
n
⋅
H
n
−
k
\begin{aligned} \mathrm{E}(T_k) &= \mathrm{E}(t_{k+1} + t_{k+2} + \cdots + t_{n}) \\ &=n \cdot ( \cfrac{1}{1} + \cfrac{1}{2} + \cdots + \cfrac{1}{n-k}) \\ &= n \cdot H_{n-k} \end{aligned}
E(Tk)=E(tk+1+tk+2+⋯+tn)=n⋅(11+21+⋯+n−k1)=n⋅Hn−k
故
E
(
T
10
)
=
E
(
t
11
+
t
12
+
⋯
+
t
100
)
=
E
(
T
100
)
−
E
(
T
10
)
≈
100
log
100
+
γ
100
+
1
2
−
(
10
log
10
+
γ
10
+
1
2
)
=
190
log
10
+
90
γ
\begin{aligned} \mathrm{E}(T_{10}) &= \mathrm{E}(t_{11} + t_{12} + \cdots + t_{100}) \\ &= \mathrm{E}(T_{100}) - \mathrm{E}(T_{10}) \\ &\approx 100 \log 100 + \gamma 100 + \cfrac{1}{2} - (10 \log 10 + \gamma 10 + \cfrac{1}{2}) \\ &= 190\log 10 + 90 \gamma \end{aligned}
E(T10)=E(t11+t12+⋯+t100)=E(T100)−E(T10)≈100log100+γ100+21−(10log10+γ10+21)=190log10+90γ
TODO:轮数方差的bound
【练习4】对于stacking和blending集成而言,若m个基模型使用k折交叉验证,此时分别需要进行几次训练和几次预测?
训练:k * m + 1
预测:(2 * k) * m+ 1
【练习5】r2_score和均方误差的区别是什么?它具有什么优势?
r2_score 代表的是模型拟合的效果,取值为[0,1]之间。它能够说明模型的线性拟合程度,当r2_score接近1时,线性模型的拟合效果比较好,当模型接近0时,模型的线性拟合效果较差。
均方误差:
M
S
E
=
1
N
∑
i
=
1
N
(
y
i
−
y
^
i
)
2
MSE = \cfrac{1}{N} \sum_{i=1}^{N} (y_i-\hat{y}_i)^2
MSE=N1i=1∑N(yi−y^i)2
代表的是模型的综合误差,从中可以分解出偏差和方差以及模型本身自带的误差。综合性更强。
【练习6】假设使用闵氏距离来度量两个嵌入向量之间的距离,此时对叶子节点的编号顺序会对距离的度量结果有影响吗?
闵氏距离定义为:
D
(
x
,
y
)
=
(
∑
u
=
1
n
∣
x
u
−
y
u
∣
p
)
1
p
D(x, y) = (\sum_{u=1}^{n}|x_u -y_u|^p)^{\cfrac{1}{p}}
D(x,y)=(u=1∑n∣xu−yu∣p)p1
编号顺序不会对距离的度量结果有影响。因为这些都是计算每个向量两个分量之间的距离关系,所以说编号顺序回对距离的度量结果没有影响。
关于闵氏距离,有以下的补充:
1、闵氏距离和特征参数的量纲有关,不同量纲的特征参数的闵氏距离常常是没有意义的。
2、闵氏距离没有考虑特征参数之间的相关性,而马哈拉诺比斯距离解决了这个问题。
知识回顾¶
-
什么是偏差和方差分解?偏差是谁的偏差?此处的方差又是指什么?
偏差和方差的分解,是对原始SSE部分进行分解,其中添加了一个常数项 E D [ f ^ D ] \mathbb{E}_{D}[\hat{f}_D] ED[f^D].
偏差是指数据真实值和模型平均预测值的偏差,偏差越小,模型的学习能力越强,能够很好的拟合数据;方差是值预测结果对数据集中数据扰动幅度的大小,方差越小,说明模型的抗干扰能力越强(不会随着数据集中数据的变动而对预测结果造成巨大的影响)。
-
相较于使用单个模型,bagging和boosting方法有何优势?
通过使用低偏差的学习其进行集成可以来降低模型的方差,
利用多个低方差的学习其进行集成可以来降低模型的偏差;
多个臭皮匠顶个诸葛亮。
bagging的话,有抽样,多个数据集之间肯定有差异,集成之后,可以稍微降低整体模型的方差;
boosting的话,会集中在减少原始训练的模型和真实值之间的差异带来的损失,这种训练会使得模型的偏差减小。
-
请叙述stacking的集成流程,并指出blending方法和它的区别。
-
什么是随机森林的oob得分?
-
随机森林是如何集成多个决策树模型的?
-
请叙述孤立森林的算法原理和流程。
标签:集成,03,偏差,task,10,模型,方差,cfrac,100 来源: https://blog.csdn.net/qq_35167821/article/details/120877372