其他分享
首页 > 其他分享> > 2021-10-03

2021-10-03

作者:互联网

机器学习3

scikit-learn数据集API介绍

数据集

sklearn.datasets

在这里插入图片描述

获取数据集返回的类型

在这里插入图片描述

sklearn分类数据集

在这里插入图片描述

import sklearn.datasets
ll=sklearn.datasets.load_iris()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

在这里插入图片描述
2.
在这里插入图片描述

import sklearn.datasets
ll=sklearn.datasets.load_digits()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

在这里插入图片描述

数据集进行分割

在这里插入图片描述
在这里插入图片描述
3.
在这里插入图片描述

import sklearn.datasets
ll=sklearn.datasets.load_boston()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

在这里插入图片描述

4.在这里插入图片描述

import sklearn.datasets
ll=sklearn.datasets.load_diabetes()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

在这里插入图片描述

转换器与预估器

在sklearn中,估计器包括分类器和回归器,是一类实现了算法的API
1、用于分类的估计器
·sklearn.neighbors k-近邻算法
·sklearn.naive_bayes 贝叶斯
·sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器
·sklearn.linear_model.LinearRegression 线性回归
·sklearn.linear_model.Ridge 岭回归

估计器的工作流程
在这里插入图片描述

分类算法

K-近邻算法

定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
两个样本的距离可以通过向量法(又称欧式距离)算出
在这里插入图片描述

数据的处理

1、缩小数据集范围
DataFrame.query()
2、处理日期数据
pd.to_datetime
pd.DatetimeIndex
3、增加分割的日期数据
4、删除没用的日期数据
pd.drop
5、将签到位置少于n个的用户删除
place_count=data.groupby(‘place_id’).aggregate(np.count_nonzero)
tf=place_count[place_count.row_id>3].reset_index()
data=data[data[‘place_id’].isin(tf.place_id)]

实例流程

1、数据集的处理
2、分割数据集
3、对数据集进行标准化
4、估计器流程进行分类预测

优缺点

在这里插入图片描述

标签:10,datasets,03,数据,ll,2021,print,data,sklearn
来源: https://blog.csdn.net/nanfang122/article/details/120595759