【台大林轩田《机器学习基石》笔记】Lecture 8——Noise and Error
作者:互联网
文章目录
Lecture 8:Noise and Error
Noise and Probabilistic Target
如果数据集本身存在噪声,会不会影响VC Dimension的推导?
数据集中的噪声来源:
- 人为因素导致误分类
- 同样的样本被分为不同的类别
- 样本特征错误
- …………
之前的数据集是确定的,即没有Noise,叫做“Deterministic”。如果有噪声数据,也就是说在某点处不再是确定分布,而是概率分布了,即对每个 ( x , y ) (x,y) (x,y)出现的概率是 P ( y ∣ x ) P(y|x) P(y∣x)
如果可以证明数据集按照
P
(
y
∣
x
)
P(y|x)
P(y∣x)概率分布且是iid(独立同分布)的,那么以前证明机器可以学习的方法依然奏效。
P ( y ∣ x ) P(y|x) P(y∣x)称之为目标分布(Target Distribution)。它实际上告诉我们最理想的选择是什么,同时伴随着多少noise。
比如在x点,有0.7的概率y=1,有0.3的概率y=0,显然选择 x x x为圆圈类是更为理想的,同时0.3可以看成 x x x是噪声的几率为30%。
对于Deterministic的数据集,也可以看成是一种特殊的概率分布:
在加入噪声的情况下,新的学习流程图:
Error Measure
Pointwise Error:对数据集的每个点计算错误并计算平均
两个重要的Pointwise Error Measure:
- 0/1 error,通常用在分类问题
- squared error,通常用在回归问题
Ideal Mini Target由 P ( y ∣ x ) P(y|x) P(y∣x)和 e r r err err共同决定,不同的 e r r err err选出的 g g g可能不一样
右侧1.1的计算:
(
1
−
1
)
2
∗
0.2
+
(
1
−
2
)
2
∗
0.7
+
(
1
−
3
)
2
∗
0.1
(1-1)^2*0.2+(1-2)^2*0.7+(1-3)^2*0.1
(1−1)2∗0.2+(1−2)2∗0.7+(1−3)2∗0.1
Algorithmic Error Measure
Error有两种:false accept和false reject。false accept意思是误把负类当成正类,false reject是误把正类当成负类。
根据不同的机器学习问题,false accept和false reject应该有不同的权重,这根实际情况是符合的,比如是超市优惠,那么false reject应该设的大一些;如果是安保系统,那么false accept应该设的大一些。
机器学习真实的err一般难以计算,常用的方法可以采用plausible(比较合理的替代)或者friendly(更加容易对算法进行优化),根据具体情况而定。
Weighted Classification
Weighted Classification就是不同Err类型赋不同权重的分类问题,比如下图中的例子:
对于带权重的分类问题,如何最小化
E
i
n
E_{in}
Ein?
对于PLA来说,如果数据是线性可分的,那么最终的 E i n E_{in} Ein一定会是0
否则的话,使用pocket算法,如果
w
t
+
1
w_{t+1}
wt+1的误差更小,那么就用
w
t
+
1
w_{t+1}
wt+1替换
w
t
w_t
wt,之前的pocket算法能够保证
E
i
n
0
/
1
E_{in}^{0/1}
Ein0/1最小,那么修改之后能否依然在
E
i
n
w
E_{in}^w
Einw上保证?
这种对不同权重的错误惩罚方法,叫做virtual copying
标签:Noise,false,err,accept,林轩,0.7,Error 来源: https://blog.csdn.net/i0o0iW/article/details/112997774