首页 > 其他分享> > 任务7，深挖K近邻

任务7，深挖K近邻

2020-01-09 19:57:03 作者：互联网

任务7 深挖K近邻

一，缺失值的处理

处理缺失值的方法：需要理解数据，察觉到哪些数据是必要的哪些不必要

1，删除法：

（1）删整个列

（2）删整行（丢弃此记录）

2，填补法

（1）用平均值来填补缺失值

（2）均值，中位数填补

二，特征编码

——机器学习的核心是建模，基础是数据，且输入一定是数值类型的，因此要把字符串转为字符类型，向量或矩阵类型

——这个转换的过程叫类别特征

——最常用的编码技术叫独热编码

对于标签编码，用0，1，2表示特征的取值，但数字之间有大小区别，影响较大

因此用向量来表示，

——在标签特征的基础上需要创建一个向量。这个向量的长度跟类别种类的个数相同。除了一个位置是1，其他位置均为0， 1的位置对应的是相应类别出现的位置。

三，数值型变量

——数值间有大小的区别，大小关系也是程度上的好坏

——常见的处理方式是直接看作数值型变量处理

四，KNN解决回归

首先明白什么是KNN的分类和回归

KNN（K近邻法）

输入为实例的特征向量，计算新数据与训练数据之间的距离，选取K个距离最近的数据进行分类或回归判断

对于分类问题:输出为实例的类别。分类时，对于新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。（计算该输入属于哪一类）

对于回归问题:输出为实例的值。回归时，对于新的实例，取其k个最近邻的训练实例的平均值为预测值。（已知该输入属于哪一类，根据它的类判断它的预测结果）

数据

下面探讨如何用KNN来预测

1，用read_csv（pd的）来读取数据

2，进行特征处理，把特征型的两个个特征（颜色，类型）用独热编码进行转换

3，用corr( )函数(独热编码sf.dummies()里的)来计算特征之间（包括全部数据）的相关性，并通过sns模块的heatmap来可视化相关性

4，因为某些数据之间单位差的比较大（比如Odometer是5位数的，HP是两位数的）所以要对于数据进行特征的归一化，用StandardScaler来进行。

训练集是数值类型特征

测试集是我们要预测的ASK Price

5，训练KNN模型，并用KNN模型做预测

训练KNN模型用的是训练集（X和y）

测试KNN模型用的是测试集（X和y）

#用X_test来预测（X是自变量）

y_pred = knn.predict(X_test)#作为X轴

y_test作为Y轴

因为X_test,y_test都经过了归一化，所以要化回来才能画图

如果预测值和实际值一样，所有的点会落在坐标轴上

1 #训练模型
2 knn=KNeighborsRegressor(n_neighbors=2)##训练出了模型
3 knn.fit(X_train,y_train.ravel())##把训练集带入？
4             #预测模型
5                #Now we can predict prices:
6 y_pred = knn.predict(X_test)
7 y_pred_inv=y_normalizer.inverse_transform(y_pred)#将标准化后的数据转换为原始数据
8 y_test_inv=y_normalizer.inverse_transform(y_test)#
9 #用KNN算法计算距离的时候要归一化，画图的时候回来

6，打印最终的结果，即预测值 y_pred_inv

五，KD树

——优化测试训练集和样本之间的距离过程

提高KNN搜索的过程：

1，根源在样本数量太多，所以从每一个类里选取有代表性的样本

2，使用一种近似KNN的方法https://www.cs.umd.edu/~mount/ANN/

3，使用KD树来加速搜索过程，一般使用在低维空间

KD树：

——肉眼可以看出哪些点离得比较近，如何使机器也能看出？

——根据它们的位置划分区域，每个区域的点很大可能会离得比较近

可以把KD树看做一种数据结构，每一个区域在KD树里是一个节点

如何基于样本来构造一棵KD树？ https://blog.csdn.net/app_12062011/article/details/51986805

KD树小结: 1、通过KD树这样的数据结构尽可能减小搜索空间，从而提升效率。

2、一般只在低维（2、3维）的空间里才会试着使用KD树来提升搜索效率。因为随着特征维度的增加，搜索的时间复杂度会指数级增加。

KD树的经典应用场景：在地图上的搜索。如搜索离当前点最近的加油站、餐馆，等等。

---------------------------------------------------------------------------------------------------------------------------------------------

（1） 打开文件可以用open（）函数，open函数有8个参数，不用全部输入也可，较重要的是fileName指定了要打开的文件名称，fileName的数据类型为字符串（单引号），fileName也包含了文件所在的存储路径，存储路径可以是相对路径，也可以是绝对路径。

encoding用于指定文件的编码方式，默认采用utf-8，编码方式主要是指文件中的字符编码。我们经常会碰到这样的情况，当打开一个文件时，内容全部是乱码，这是因为创建文件时采用的编码方式，和打开文件时的编码方式不一样，就会造成字符显示错误，看上去就是乱码。

f=open('D:\python3\Lib\二手车价格.csv',encoding='UTF-8')

（2） 独热编码用法：

https://blog.csdn.net/qq_43404784/article/details/89486442

独热编码就是将一列值为字符串的，变为值为0，1之类的数值，从标题为颜色，到标题为是否为红色/绿色

（3） pandas数据合并与重塑（pd.concat篇）

result = pd.concat([df1, df4], axis=1)

当axis = 1的时候，concat就是行对齐，然后将不同列名称的两张表合并

（4） df 发现不用print，直接列出变量名就可以得到值，比如给一个变量赋值，然后输入变量名，就可以显示变量的内容

但只能输出最后的一句

（5） matplotlib 中设置图形大小的语句如下：

fig = plt.figure(figsize=(a, b), dpi=dpi)

其中：

figsize 设置图形的大小，a 为图形的宽， b 为图形的高，单位为英寸

dpi 为设置图形每英寸的点数

则此时图形的像素为：

px, py = a*dpi, b*dpi # pixels

（6） 热图是数据的图形表示，也就是说，它使用颜色来向读者传达价值。

用df.corr()函数计算df文件的相关性，范围在-1-1间

使每个单元格成方形

square = True,

##通过sns模块来可视化相关性，颜色越深的代表相关性越大。

sns.heatmap(matrix,square=True)

（7） 特征的归一化，把原始特征转换成均值为0方差为1的高斯分布

## 注意：特征的归一化的标准一定要来自于训练数据，之后再把它应用在测试数据上。因为实际情况下，测试数据是我们看不到的，也就是统计不到均值和方差。

（8） 当直接使用df后接一个中括号时，表示取其一列，类型为Series，接2个中括号时，也是取一列，但类型为DataFrame(带有列名)

（9） shape是查看数据有多少行多少列
reshape()是数组array中的方法，作用是将数据重新组织

Reshape（-1，1）#行任意，列为1的数组

（10） X->自变量

y->因变量

train->训练集

test->测试集

从 sklearn.model_selection 中调用train_test_split 函数

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

# train_data：所要划分的样本特征集

# train_target：所要划分的样本结果

# test_size：样本占比，如果是整数的话就是样本的数量

# random_state：是随机数的种子。

# 随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

（11） StandardScaler----计算训练集的平均值和标准差，以便测试数据集使用相同的变换

（12） fit() 预处理的数据，计算矩阵列均值和列标准差

我们在训练集上调用fit_transform()，其实找到了均值μ和方差σ^2，即我们已经找到了转换规则，我们把这个规则利用在训练集上，同样，我们可以直接将其运用到测试集上（甚至交叉验证集），所以在测试集上的处理，我们只需要标准化数据而不需要再次拟合数据

（13）

# fit_transform()先拟合数据，再标准化
X_train = ss.fit_transform(X_train)
# transform()数据标准化
X_test = ss.transform(X_test)

因为在训练集已经找到转换规则，所以直接用到测试集上

X_train = X_normalizer.fit_transform(X_train)

X_test = X_normalizer.transform(X_test)

（14） k近邻分类

k-NN 算法最简单的版本是只考虑一个最近邻，即被预测的新的数据点离训练的数据集中的哪个点最近，它将被归类为哪个类别。

五角星为被预测的数据点，根据其离得最近的训练数据集，通过设置参数n_neighbors=1来设定“最近邻”的个数。

从上图我们就能明白，新数据离得谁最近，他就会被归类为哪一类。

左上角的五角星其实应该属于三角星一类，为了提高准确率，这里可以提高“最近邻”个数，即n_neighbors值。再来看一下当n_neighbors=3时的情况：

当提高“最近邻”的个数后，可以看到，对于新数据的预测更准确了，左上角的五角星近相近的是一个圆和两个三角星，因此它被归类于三角一类。

KNN分类树的类是KNeighborsClassifier，KNN回归树的类是KNeighborsRegressor

参数	KNeighborsClassifier	KNeighborsRegressor
KNN中的K值n_neighbors	K值的选择与样本分布有关，一般选择一个较小的K值，可以通过交叉验证来选择一个比较优的K值，默认值是5。如果数据是三维一下的，如果数据是三维或者三维以下的，可以通过可视化观察来调参。

K近邻(回归)模型同样是无参数模型，只是借助K个最近训练样本的目标数值，对待测样本的回归值进行决策。即根据样本的相似度预测回归值（标准线）。
衡量样本待测样本回归值的不同方式：（1）对K个近邻目标数值使用普通的算术平均算法（2）对K个近邻目标数值考虑距离的差异进行加权平均。

KNN算法思想

1 计算已知类别中数据集的点与当前点的距离。[即计算所有样本点跟待分类样本之间的距离]

2 按照距离递增次序排序。[计算完样本距离进行排序]

3 选取与当前点距离最小的k个点。[选取距离样本最近的k个点]

4 确定前k个点所在类别的出现频率。[针对这k个点，统计下各个类别分别有多少个]

5 返回前k个点出现频率最高的类别作为当前点的预测分类。[k个点中某个类别最多，就将样本划归改点]

KNN工作原理

1 假设有一个带有标签的样本数据集（训练样本集），其中包含每条数据与所属分类的对应关系。

2 输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较。

3 计算新数据与样本数据集中每条数据的距离。

4 对求得的所有距离进行排序（从小到大，越小表示越相似）。

5 取前 k （k 一般小于等于 20 ）个样本数据对应的分类标签。

6 求 k 个数据中出现次数最多的分类标签作为新数据的分类。

KNN算法的实现可以参考

https://www.cnblogs.com/xiaotan-code/p/6680438.html

knn = KNeighborsClassifier()
#定义一个knn分类器对象
knn.fit(iris_x_train, iris_y_train)
#调用该对象的训练方法，主要接收两个参数：训练数据集及其样本标签

iris_y_predict = knn.predict(iris_x_test)
#调用该对象的测试方法，主要接收一个参数：测试数据集

probility=knn.predict_proba(iris_x_test)
#计算各测试样本基于概率的预测

neighborpoint=knn.kneighbors(iris_x_test[-1],5,False)
#计算与最后一个测试样本距离在最近的5个点，返回的是这些样本的序号组成的数组

score=knn.score(iris_x_test,iris_y_test,sample_weight=None)
#调用该对象的打分方法，计算出准确率

print('iris_y_predict = ')
print(iris_y_predict)
#输出测试的结果

（1） plt.scatter（x,y）#绘制散点图

（2） np.linspace主要用来创建等差数列。

（17） plt.plot()函数的本质就是根据点连接线。根据x(数组或者列表) 和 y(数组或者列表)组成点，然后连接成线。

颜色控制符

要想使用丰富，炫酷的图标，我们可以使用更复杂的格式设置，主要颜色，线的样式，点的样式。

默认的情况下，只有一条线，是蓝色实线。多条线的情况下，生成不同颜色的实线。

字符	颜色
'b'	blue
'g'	green
'r'	red
'c'	cyan 青色
'm'	magenta平红
'y'	yellow
'k'	black
'w'	white

线形控制符

字符	类型
'-'	实线
'--'	虚线
'-.'	虚点线
':'	点线
' '	空类型，不显示线

diagonal = np.linspace(500,1500,100)

plt.plot(diagonal,diagonal,'-r')

---------------------------------------------------------------------------------------

总结：

可以一行一行来运行代码，更直观地了解每一行代码的作用

标签：KNN,训练,深挖,近邻,样本,任务,train,test,数据
来源： https://www.cnblogs.com/tann/p/12173228.html