数据挖掘基本流程
作者:互联网
一、数据预处理
- 获取数据
- 查看数据基本情况info()/head()/describe()
- 缺失值处理(删除/填充/承认缺失值存在)、异常值处理(删除/保留/处理到一定范围内)
- 类别型数据处理、时间型数据处理、转换变量类型、对数据进行分箱/分桶/离散化
- 分类建模,分析样本是否不均衡(过抽样,欠抽样/正负样本惩罚权重/组合集成处理)
- 对变量进行分析
二、数据标准化
- 选择合适的特征进行数据标准化
- 对特征之间进行相关性分析,对特征与目标进行相关性分析
三、模型训练
- 选择对应特征作为模型特征值和目标值(无监督学习无目标值)
- 建立模型(是否有超参数需进行交叉验证/网格搜索),进行训练,得到结果
三、模型评估与优化
-
根据模型选择对应的评估方法
监督学习:
回归模型:均方根误差、相对平方误差、平均绝对误差、相对绝对误差、决定系数等
分类模型:准确率、精确率、召回率、F1-score、AUC指标等
无监督学习:
聚类模型:误差平方和、轮廓系数等 -
对模型进行调优
标签:基本,误差,绝对误差,特征,流程,数据挖掘,数据,模型,进行 来源: https://blog.csdn.net/qiu12345677/article/details/114915391