首页 > 其他分享> > 统计学习方法学习笔记-03-k近邻法

统计学习方法学习笔记-03-k近邻法

2022-09-14 17:02:59 作者：互联网

首先叙述\(k\)近邻算法，然后讨论\(k\)近邻模型及三个基本要素，最后讲述\(k\)近邻法的一个实现方法，\(kd\)树，介绍构造和搜索\(kd\)树的算法。

k近邻算法

输入：训练数据集\(T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}\)，其中，\(x_i \in \mathcal{X} \subseteq R^n\)为实例的特征向量，\(y_i \in \mathcal{Y} = \{c_1,c_2,\cdots,c_K\}为实例的类别\)，\(i = 1,2,\cdots,N\)；实例特征向量\(x\)
输出：实例\(x\)所属的类\(y\)

根据给出的距离度量，在训练集中找到和\(x\)最近的\(k\)个点，涵盖这\(k\)个点的\(x\)的邻域记作\(N_k(x)\)
在\(N_k(x)\)中根据分类决策规则(如多数表决)决定\(x\)的类别\(y\):

\[y = arg\ \mathop{max}\limits_{c_j}\sum_{x_i \in N_k(x)}I(y_i = c_j),i = 1,2,\cdots,N;j = 1,2,\cdots,K \]

\(I\)为指示函数，当\(y_i = c_j\)时\(I\)为1，否则为0

k近邻模型的三要素

\(k\)近邻法使用的模型实际上对应着对特征空间的划分，模型三要素为距离度量、\(k\)值的选择和分类决策规则

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。设特征空间\(\mathcal{X}\)是\(n\)维实数向量空间\(R^n\)，\(x_i,x_j \in \mathcal{X},x_i = (x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T,x_j = (x_j^{(1)},x_j^{(2)},\cdots,x_j^{(n)})^T\)

\(L_p\)距离：

\[L_p(x_i,x_j) = \left(\sum_{l=1}^n|x_i^{(l)} - x_j^{(l)}|^p \right)^{\frac{1}{p}} \]

欧式距离Euclidean distance：\(p = 2\)

\[L_2(x_i,x_j) = \left(\sum_{l=1}^n|x_i^{(l)} - x_j^{(l)}|^2 \right)^{\frac{1}{2}} \]

曼哈顿距离Manhattan distance：\(p = 1\)

\[L_1(x_i,x_j) = \sum_{l=1}^n|x_i^{(l)} - x_j^{(l)}| \]

各个坐标距离的最大值：\(p = \infty\)

\[L_{\infty}(x_i,x_j) = \mathop{max}\limits_l|x_i^{(l)} - x_j^{(l)}| \]

k值的选择

较小的\(k\)值：学习的近似误差会减小，估计误差会增大，预测结果会对邻近的实例点非常敏感，如果该点恰好是噪声，预测就会出错，也就是说\(k\)值的减小会使模型变得复杂，容易发生过拟合。
较大的\(k\)值：学习的近似误差会增大，估计误差会减小，也就是说\(k\)值的增大会使模型变得简单
一般使用交叉验证法来确定该值

分类决策规则

多数表决majority voting rule：如果分类的损失函数为0-1损失函数，分类函数为：

\[f:R^n \rightarrow \{c_1,c_2,\cdots,c_k\} \]

那么误分类的概率是

\[P(Y \neq f(X)) = 1 - P(Y = f(X)) \]

对于给定的实例\(x \in \mathcal{X}\)，其最邻近的\(k\)个训练实例点构成集合\(N_k(x)\)，如果涵盖\(N_k(x)\)的区域的类别是\(c_j\)，那么误分类率是：

\[\frac{1}{k}\sum_{x_i \in N_k(x)}I(y_i \neq c_j) = 1 - \frac{1}{k}\sum_{x_i \in N_k(x)}I(y_i = c_j) \]

要使误分类率最小即经验风险最小，就要使\(\sum_{x_i \in N_k(x)}I(y_i = c_j)\)最大，所以多数表决规则等价于经验风险最小化。

k近邻法的实现：kd树

目的：对训练数据进行快速\(k\)近邻搜索

构造\(kd\)树

输入：\(k\)维空间数据集\(T = \{x_1,x_2,\cdots,x_N\}\)，其中\(x_i = (x_i^{(1)},x_i^{(2)},\cdots,x_i^{(k)})^T,i = 1,2,\cdots,N\)
输出：平衡\(kd\)树

构造根节点，使根节点对应于\(k\)维空间中包含所有实例点的超矩形区域；
对于深度为\(j\)的树结点，选择\(x^{(l)}\)为切分的坐标轴，\(l = j(mod\ k) + 1\)，以该结点的区域中的所有实例点的\(x^{(l)}\)坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域，对应两个子结点，左子结点对应坐标\(x^{(l)}\)小于切分点的子区域，右子结点对应坐标\(x^{(l)}\)大于切分点的子区域，将落在切分超平面上的实例点保存在该结点；
重复第二步，直到两个子区域内没有实例点时终止；

搜索\(kd\)树

输入：已构造的\(kd\)树，目标点\(x\)；
输出：\(x\)的最近邻；
更适用于训练实例数远大于空间维数的情况，平均计算复杂度为\(O(\log N)\)

在\(kd\)树中找到包含目标点\(x\)的叶结点：从根节点出发，递归的向下访问\(kd\)树。若目标点\(x\)的当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点，直到子结点为叶结点为止
以此叶结点为当前最近点
递归的向上回退，在每个结点进行以下操作：如果该结点保存的实例点比当前最近点距离目标更近，则以该实例点为当前最近点；当前的最近点一定存在于该结点一个子结点对应的区域，检查该子结点的父节点的另一个子结点对应的区域是否有更近的点，具体的，检查另一个子结点对应的区域是否与以目标点为球心，以目标点与当前最近点间的距离为半径的超球体相交，如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点，接着递归的进行最近邻搜索，如果不相交，向上回退，
当回退到根结点时，搜索结束，当前最近点即为\(x\)的最近邻点

标签：03,结点,kd,近邻,学习,cdots,实例,sum
来源： https://www.cnblogs.com/eryoyo/p/16693672.html