其他分享
首页 > 其他分享> > 机器学习笔记——数据挖掘建模过程

机器学习笔记——数据挖掘建模过程

作者:互联网

一、定义挖掘目标

针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到

什么样的效果?因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相

关领域的情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么。

 

二、数据取样

    在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目

标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,还可

以使我们想要寻找的规律性更加凸显出来。

    进行数据取样,一定要严于把质量关。在任何时候都不能忽视数据的质员,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能会造成误导。若从正在运行的系统中进行数据取样,更要注意

数据的完整性和有效性。

 

三、数据探索

    前面所叙述的数据取样,多少是带着人们对如何实现数据挖掘目标的先验认识进行操作

的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;样本中有没有什么

明显的规律和趋势;有没有出现从未设想过的数据状态;属性之间有什么相关性;它们可区

分成怎样一些类别......,这都是要探索的内容。

 

四、数据预处理

当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处处理要解决的

问题_。

 

五、挖掘建模

       样本抽取完成并经顶处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?

 

六、模型评价

       建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。

参考:《Python数据分析与挖掘实战》

标签:样本,建模,笔记,挖掘,取样,数据挖掘,数据
来源: https://blog.csdn.net/king_700/article/details/100664336