其他分享
首页 > 其他分享> > 20210315_23期_集成学习(上)_Task01

20210315_23期_集成学习(上)_Task01

作者:互联网

一、机器学习

图1
—https://realpython.com/

目录

来源

Datewhle23期__集成学习(上) : https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning
作者:李祖贤、薛传雨、赵可、杨毅远、陈琰钰

论坛地址:http://datawhale.club/t/topic/1574


机器学习–数据分析技术–利用模型发现规律—预测/推断/分类—有监督/无监督等等

在这里插入图片描述

#先导入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

1.1 回归

先利用波士顿房价里的因变量特征作监督学习里的回归

from sklearn import datasets
boston = datasets.load_boston()
print(type(boston)) # 返回一个类似于字典的类
<class 'sklearn.utils.Bunch'>
X = boston.data
y = boston.target
features = boston.feature_names
print(features)
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
boston_data = pd.DataFrame(X,columns=features) #特征
boston_data["Price"] = y  #房价为因变量
print(boston_data.head())
      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  PTRATIO       B  LSTAT  Price
0  0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0     15.3  396.90   4.98   24.0
1  0.02731   0.0   7.07   0.0  0.469  6.421  78.9  4.9671  2.0  242.0     17.8  396.90   9.14   21.6
2  0.02729   0.0   7.07   0.0  0.469  7.185  61.1  4.9671  2.0  242.0     17.8  392.83   4.03   34.7
3  0.03237   0.0   2.18   0.0  0.458  6.998  45.8  6.0622  3.0  222.0     18.7  394.63   2.94   33.4
4  0.06905   0.0   2.18   0.0  0.458  7.147  54.2  6.0622  3.0  222.0     18.7  396.90   5.33   36.2

作出房价和NOX的散点图

sns.scatterplot(boston_data['NOX'],boston_data['Price'],color="b")
plt.title("Price~NOX")
plt.show()

在这里插入图片描述

1.2 分类

鸢尾花(iris)数据中类别 花萼花瓣特征 对应关系

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
features = iris.feature_names
print(features)
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
iris_data = pd.DataFrame(X,columns=features)
iris_data['target'] = y
print(iris_data.head())
sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target
0                5.1               3.5                1.4               0.2       0
1                4.9               3.0                1.4               0.2       0
2                4.7               3.2                1.3               0.2       0
3                4.6               3.1                1.5               0.2       0
4                5.0               3.6                1.4               0.2       0
marker = ['s','x','o']
for index,c in enumerate(np.unique(y)):
 
plt.scatter(x=iris_data.loc[y==c,"sepal length (cm)"],y=iris_data.loc[y==c,"sepal widt
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.legend()
plt.show()

在这里插入图片描述不同样式点代表不同类别花

1.3 无监督学习

无监督学习的目标

聚类

降维

作用:

降维过程也可以被理解为对数据集的组成成份进行分解(decomposition)的过程

例子1 ** 生成月牙型非凸集

from sklearn import datasets
x, y = datasets.make_moons(n_samples=2000, shuffle=True,
                  noise=0.05, random_state=None)
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y==c,0],x[y==c,1],s=7)
plt.show()

在这里插入图片描述
例子2 ** 生成符合正态分布的聚类数据

from sklearn import datasets
x, y = datasets.make_blobs(n_samples=5000, n_features=2, centers=3)
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y==c, 0], x[y==c, 1],s=7)
plt.show()

在这里插入图片描述

参考资料

https://www.jianshu.com/p/a65e7928e79f 机器学习分类
https://www.cnblogs.com/weihuchao/p/6874683.html 无监督学习

标签:20210315,iris,plt,cm,23,boston,0.0,Task01,data
来源: https://blog.csdn.net/yuliuchenyin/article/details/114851005