《数据挖掘与机器学习》复习第一章
作者:互联网
目录
第一章 数据挖掘概述
1.1数据分析技术的发展
1.1.1数据时代
数据管理技术进入数据库阶段的标(三大事件):
1968年IMS系统(层次模型)的研制成功,1969年DBTG报告(网状系统)的发布,1970年科德文章(关系模型)的发表。
1.2数据挖掘的概念
1.2.1数据挖掘的定义与OLAP
数据挖掘(狭义):一般是指从大量数据中通过算法搜索出隐藏于其中的信息的过程。
数据挖掘(广义):数据挖掘就是一个完整的知识发现,包括数据清理,建模,评估等全过程。
数据挖掘与其他学科的关系:数据挖掘是一种综合技术,在对业务数据进行处理的过程中需要用到很多领域的知识。
关系图
数据分析与OLAP的关系
企业数据的数据量巨大,但真正具有价值的信息却比较少,想要获得有用的信息,我
需要对大量的数据进行深层分析。商业信息的处理技术可以分为两个层次。在浅层次上
我们可利用数据库管理系统的查询、检索功能,与多维分析、统计分析方法相结合,进
行联机分析处理(On -Line Analytical Processing,OLAP),得出可供决策参考的统计分
析数据。在深层次上,我们可从数据中发现前所未有的、隐含的知识。OLAP的出现早
于数据挖掘,它们都是从数据中抽取有用信息的方法,就决策支持的需要而言,两者是
相辅相成的。OLAP可以看作一种广义的数据挖掘方法,旨在简化和支持联机分析,而
数据挖掘的目的是使这一过程尽可能自动化。
1.2.2数据挖掘与知识发现
数据挖掘与知识发现有很密切的联系,从狭义的角度来讲,数据挖掘是知识发现的一个环节;从广义的角度讲,数据挖掘与知识发现的含义是相同的。
知识发现是一个完整的数据分析的过程,主要步骤包括
①确定知识发现的目标
②数据采集
③数据探索
采集到的数据,往往是不可以直接使用的,需要数据分析人员对数据进行探索。探索主要包括数据特征的基本统计描述、数据特征间的相似/相异性等。数据探索阶段可以采用可视化技术,将数据的特征展现出来。离散型数据和连续型数据适用不同的算法模型,数据的分布规律决定其是否符合某些算法模型的要求。
④数据预处理
(1)数据清理主要包括缺失值与异常值的清理。缺失值较少可以直接采取删除,达到一定阀值就不得轻易删除,先要分析采集是否错误。也可以采取默认值替换的方法,或是用拉格朗日插值法对缺失值进行填充。
(2)数据集成主要是指将多种数据源汇集到一起,放入一个数据仓库的过程。
(3)数据归约是指在保证原始数据信息不丢失的情况下,减少分析使用的数据量。
(4)数据的变换是将原始的特征数据进行归一化和标准化的操作。
归一化是指将原始数据变为(0,1)之间的小数。原因是在于不同变量往往量纲不同,归一化可以消除量纲对最终结果的影响,使不同变量具有可比性。
标准化是指将数据按比例缩放,使之落入一个小的特点区间。标准化处理后的均值为0,标准差为1。
⑤数据挖掘是对预处理后的数据进行挖掘的过程。传统的数据挖掘将算法大体分为有监督学习与无监督学习。
有标签就是有监督学习,没有标签就是无监督学习,说的详细一点,有监督学习的目的是在训练集中找规律,然后对测试数据运用这种规律,而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
有监督学习可分为分类和回归,具体的算法包括线性回归,逻辑回归,贝叶斯,支持向量机等。
无监督学习主要为聚类,具体的算法包括K-Means、DBSCAN、PCA降维等。
⑥模式评估
模式评估是对数据挖掘结果的评价,也是评价这个算法模式好与坏的标准。
1.3数据挖掘的功能与应用领域
1.3.1应用领域
电子商务,电信行业,金融行业,医疗行业,社会网络。
1.3.2数据挖掘面临的问题
(1)数据源的多样性
(2)数据挖掘算法的改进
(3)数据隐私保护
1.4数据挖掘的模型
数据挖掘模型是指根据具体的数据形式,使用数据挖掘技术完成目标的过程。
1.4.1类/概念描述
类/概念描述就是通过对某类对象关联数据的汇总、分析和比较,用汇总、简洁、精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征,这里的概念与类的含义相同。
类/概念描述分为特征性描述和区别性描述。
(1)特征性描述是指从某类对象关联的数据中提取出这类对象的共同特征(属性)。
(2)区别性描述针对具有可比性的两个类或多个类,将目标类的特征与对比类的共性特征进行比较,描述不同类对象之间的差异。
1.4.2回归
回归分析可通俗的解释为通过一种及以上的自变量的值预测应变量值的过程,回归分析的过程也就是找到自变量与应变量之间的函数关系式的过程。
常见回归算法:线性回归,逻辑回归,多项式回归,逐步回归、岭回归,Lasso回归、ElasticNet回归。
1.4.3分类
分类是一个常见的预测问题,解决的问题与生活中分类问题基本一致。
回归与分类的区别:回归可用于预测连续型目标变量,分类可用于预测离散的目标变量。
常见的分类算法:逻辑回归,决策树,神经网络,贝叶斯、K近邻算法,支持向量机(SVM)等
1.4.4预测
预测是基于历史数据采用某种数学模型来预测未来的一种算法,即以现有数据为基础,对未来的数据进行预测。
1.4.5关联
关联是用来发现描述数据中强关联特征·的模式。
常用关联算法:Apriori、FP-tree、HotSpot
1.4.6聚类
聚类是一种理想的多变量统计技术。聚类的思想可用“物以类聚”来表述,讨论的对象是大量无标签值的样本,要求能按样本的各自特征在无标签的情况下对样本进行分类。
1.4.7异常检测
异常对象被称为离群点,异常检测也可称为离群点检测。离群点产生的原因是因为数据来源不同、数据测量误差、数据收集误差等。异常检测的目的是识别出数据特征显著区别于其他数据的异常对象。
1.5数据挖掘的数据类型
1.5.1数据库
数据库系统是指在计算机系统中引入数据库后的系统,即具有数据处理功能的系统,一般由数据库、数据管理系统、应用系统和用户构成。数据库主要应用的数据操纵为联机事物处理(OLTP)。主要特点是数据存取频率高,响应时间要求快,存取数据量小,数据储存安全可靠,同时也包括了事物的概念。
1.5.2数据仓库
数据仓库是面对主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。数据仓库面向的操作主要为联机分布处理(OLAP),数据仓库的出现有效解决了各个部门的数据信息孤岛的存在。
标签:1.4,复习,回归,OLAP,第一章,算法,数据挖掘,数据 来源: https://blog.csdn.net/yuwoxinanA3/article/details/121662885