R数据挖掘学习(方法论)
作者:互联网
在学习任何工具之前都应该明了工具只是一种实现某种目的的手段,而方法论、思维更加重要,这才是到达最终目的地的指导,把大量的时间精力投入到孤立的工具学习上倒有些因小失大,抓小失大的嫌疑,尤其是数据挖掘这样的应用型的技能。接触到数据挖掘也才不到一年,开这个博客也是想记录自己的学习过程,巩固自己的知识,如果能给偶然看到我的胡说八道的同仁带来一点点的帮助也算是功德无量了,会开心的不得了哈哈哈哈。。。
今天第一更,讲讲数据挖掘的方法论或者说总体思维步骤。初步接触数据挖掘的PY,特别是像我这种刚接触的时候就被告知说要跑R、python,在哪个哪个期间把哪本哪本书跑完,说出来不怕笑话,我刚开始的时候连python这个单词都写不对,老写成pathon。懵懵懂懂的跟风跑完王汉生老师的《应用商务统计》(这本书是以R为工具的商业案例分析),说是跑完,其实也就是跟着这本书把书上的代码敲一遍,完了之后仔细想想什么也不知道,拿到一组数据依然不知道从何下手,不知道这个案例为什么要用这么模型,不知道这句代码为什么是这些参数,不知道Q-Q图是干什么的,不知道ROC曲线怎么看,怎样的结果表示拟合效果好?通通不知道,还要面对R时不时的红色报错!忙活半天感觉都没入门!!!
后来慢慢感受到是不是自己战略上存在不足,战术上的忙碌掩盖了战略上的错误。作为一个商学院的学生,学习数据分析数据挖掘是要解决商业问题的,是要为商业决策而服务的,而我却把重心放在工具的实现上,所以才会像个机器一样的云里雾里,像个没头苍蝇一样。后来我专门花时间上网看各种攻略各种博客,见识别人的思路方法,分析自己的需求,确定下来我学习R、python的目的是要为商业决策服务,用数据指导决策,解决实际问题。明确的纲领之后,在学习的时候就有意识地以解决问题的角度去思考。
那么,数据分析的道是什么?在我看来就是数据挖掘的方法论,拿到一个商业问题,如何利用数据手段来解决。学习数据挖掘,首先应该建议一条数据挖掘路径,应该从何入手,先干什么,再干什么。
1、理解业务知识。业务知识是数据挖掘的基础,要懂行业背景,明确要解决的问题,并将问题转换成数据能够理解的问题,这就需要围绕问题形成心中的数据框架,需要哪些数据来进行怎样的处理来实现问题的解决,做到心中有数,对一个行业的理解不是一天两天就能深入,在这里特别赞同王汉生老师的话,和业务端的同事建立密切的联系和沟通,他们比你更了解他们的行业,公司,业务,对业务知识的理解深刻程度决定了data mining的成功与否。
2、数据收集。确定样本,确定变量,要小心数据来源,是否存在抽样偏差,此来源下的数据挖掘结论是否能够进行推广,边界在哪里?
3、数据理解和整理。数据理解包括对数据粒度(数据的详细程度)、变量含义、异常值、数据类型、数据集,这和业务知识紧密相连,数据整理是在对数据充分理解的基础上,将数据规约成便于分析的格式,其中包括变量冗余、缺失值处理、异常值处理、数据类型转换、数据集链接、属性构造、数据转换(如数据归一化)。这一部分有时候excel比R和python更为方便。
4、数据探索
5、数据建模
6、模型评估
今天就先写到这里,只是自己的一些理解,不全,因为还不深入,后面会再更深入的总结一些,要强调这六个步骤不是单线的联系,常常是反复的,后面会详细介绍。
标签:方法论,python,学习,理解,数据挖掘,业务知识,数据 来源: https://blog.csdn.net/mingxiaoming111/article/details/104538981