其他分享
首页 > 其他分享> > Alibaba Certified Professional-Data Analyst记录

Alibaba Certified Professional-Data Analyst记录

作者:互联网

Alibaba Cloud Certified Professional-Data Analyst 重点不完整记录

分析报告 5 大部分

数据聚合时如果数据质量无控制

将会导致计算时成倍放大或重复相关的数据

使用 MAXCompute ,处理统计模型脏数据问题

在数据项目的执行流程中属于 项目设计阶段 :对承担的任务设计具体实施的方法

在信用卡公司的客户信息中,客户什么信息最敏感

在地址、年龄、性别、婚姻状况中 年龄数据较为敏感

不同年龄具备不同的社会特征,也具有不同的资金需求,通过年龄分析可以更好的分开层次,不同年龄的特征更明显,所以年龄相对于其他更为敏感

大数据存储技术,最典型的三种路线

按照指标所反映总体现状的数量特性,可以分为:数量指标与质量指标

质量指标是反映生产效果工作质量的总量指标

它的数值是表明事务质的属性的量

结构化、非结构化、半结构化、关系型数据

OSS 对象存储、Mysql、Hbase、MongoDB

对于存储大量图片和视频信息,OSS 对象存储显然更合适,Mysql 适合结构化数据,Hbase 适合 NoSql 多版本数据松散存储,MongoDB 适合用于 json 存储

SQL 中的 truncate 、into 、delete、drop

折线图、散点图、柱状图、饼图直方图(Histogram)

机器学习不适合创造新事物

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能

机器学习是建立在已有的海量数据基础上,经过不断的机器自主学习,实现机器模拟人脑、模拟算法等等,所以机器学习需要数据支持,而创造新事物是无中生有,不适合机器学习

宏代码编程

计算机科学里的宏(Macro),是一种批量批处理的称谓。用于说明某一特定输入,如何根据预定义的规则转换成对于的数据,测试出运行效果

云计算与中小型企业

中小型企业不适合购买大量的服务器并进行大量人员投入进行设备的维护工作,所以中小型企业适合购买云服务,节省服务器运维、安装等成本的投入

实现决策树的算法:ID3

决策树是一种十分常用的基于规则等有监督学习算法。ID3 是一种经典的实现决策树的算法。ID3 算法在进行特征选择时选用的优先分枝指标是:信息增益

键值存储数据库、文档型数据库、列族数据库、图形数据库

数据质量维度

Apriori、K-means、逻辑回归、线性回归算法、支持向量机

聚类分析、非球形聚类算法

每种算法只有聚类与之相适合的数据集时才能形成比较理想的聚类结果,而且聚类结果的质量很难定量评估虽然已经提出一些聚类质量评估的方法,但是这些评估方法却不能与聚类算法有机结合,并指导聚类算法进行调整和更新以产生更好的聚类结果。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用 n 行 n 列的矩阵形式来表

RandomForest、Adaboost、gbdt、XGBoost

双样本假设检验

双样本假设检验用于检验两个研究样本所属的总体是否存在显著性差异,或者检验它们是否来自同一分布总体

检验的零假设为:在给定的显著水平上两个样本 所来自的总体不存在显著性差异。

深度学习、决策树(Decision Tree)、关联分析、聚类分析

外键与 RDS

在 RDS(关系型数据库)中:外键在表中必须非空且唯一

针对 MaxCompute 不成立

统计指标的构成要素

程序命名常见方式

举例:01_ABC_Data_Extraction.sql

01:运行顺序

ABC:程序名称缩写

Data_Extraction:程序功能

ETL 中的数据抽取

数据抽取分为:实时抽取、批量抽取,对于历史数据无需在系统进行实时提取,可以在业务不繁忙的工作时间进行。

SMART 原则

( S=Specific M=Measurable A=Attainable R-Relevant T=Time-bound )

是为了利 于员工更加明确高效地工作,更是为了管理者将来对员工实施绩效考核提供了考核目标和考核标准,使考核更加科学化、规范化,更能保证考核的公正、公开与公平

MacCompute 表的生命周期

MaxCompute 表生命周期(LIFECYCLE)

指表(分区)数据最后一次更新的时间算起,在经过指定的时 间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个 指定的时间 就是生命周期

生命授权单位days(天),只接受正整数

项目前分析

项目前分析是全部项目评估中最重要的一个部分。

广义的项目前评估是指在项目前期决策阶阶段,从整个项目全局出发,根据国民经济和组织发展的需要对项目及其被选方案所进行的全面评估,从而辨别项目及其被选方案的可行和优劣,决定取舍。

项目前评估也可以根据评估主休的不同而分成项目业主的评估、贷款银行审查贷款项目的评价和承包商投标项目前的评估等。

总之,项目前就是在项目的投资决策之前,对项目的必要性和项目备选方案技术、经济、运行条件和社会与环境影响等方面所进行的全面论证与评估的工作。

主要特点是:

数据分析师接受一个分析项目后

首先需要理解项目的

然后开始设计分析步骤

项目目标确认顺序

  1. 项目情况分析
  2. 项目问题界定
  3. 确定项目目标因素
  4. 建立项目目标体系
  5. 各目标的关系确认

RDS 三范式

大数据质量问题出现的原因

指标体系 (与 26 点 SMART 原则 联系)

指标体系:是指由若干个反映社会经济现象总体数量特征的相对独立相互联系统计指标所组成的有机整体

在统计研究中,如果要说明总体全貌,那么只使用一个指标往往是不够的,因为它只能反映总体某一方面的数量特征。这个时候就需要同时使用多个相关指标了,而这多个相关的又相互独立的指标所构成的统一整体,即为指标体系

双尾显著性检验

双尾显著性检验:事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理

判断总体的真实情况原假设是否有显著性差异

MapReduce 中的 Map 任务

map 处理任务的工作和作用:

关联分析中的置信度

置信度:表示当 A 项出现时 B 项同时出现的频率,记作(A—>B。

换言之,置信度指同时包含 A 项和 B 项的交易数与包含 A 项的交易数之比

公式表达:根据公式可知如果 A支持度项集越高置信度不一定越高。若 A 的交易数很高,置信度恰好越低

MapReduce 中的 NameNode

NameNode主要进行执行的控制工作不进行实际的工作,聚合操作也在 DataNode 中进行。

具体如下:

  1. NameNode 主要功能

    接受客户端的读写服务

  2. NameNode 保存 metadata 信息

    1. 文件 owership 和 permissions

    2. 文件包含哪些块

    3. Block 保存在那个 DataNode 上

      (DameNode 启动的时候主动把 block 汇报给 NameNode)。

  3. NameNode 的 metadata 信息会在启动后加载到内存中

    1. metadata 存储到磁盘文件名为“fsimage”

      (做持久化操作,存储文件 owership 和 permissions 和文件包含哪些块)

    2. Block 的位置信息不会保存到 fimage

    3. edits(日志)记录对 metadata 的操作日志中

      (在持久化操作的间隔中使用的)

分析报告

分析报告:根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的

并得出结论,提出解决办法的一种分析应用文体。

通过对数据数据全方位的科学分析来评估其环境及发展情况

为决策者提供科学、严谨的依据,降低风险。

所以既然要出一份分析报告,分析报告中需要具备的要求是必不可少的。

数据分析师接受一个分析项目后,首先需要理解项目的目标、背景和范围,然后开始设计分析步骤

决策树拟合不足的原因

模型拟合不足的问题是因为:

训练误差和验证误差都很大,这种情况称为欠拟合

出现欠拟合的原因是模型尚未学习到数据的真实结构

因此,模拟在训练集和验证集上的性能都很差。

数据质量管理(Data Quality Management)

数据质量管理(Data Quality Management) 是指:

对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

方便非结构化数据检索办法

非结构化数据像图片、声音、视频等等。

这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个 BLOB 字段中,对以后检索非常麻烦。

一般的做法是:建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob) 。引用通过编号,检索通过内容描述。还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种

可视化报表需要具备的条件

项目维度KPI 计算相关的属性列聚合

将所有与分析项目维度KPI 计算相关的属性列聚合到一张数据表(“分析用数据表)里方便:

准确率与召回率

回归模型中的最小二乘法

回归模型是一种常用的预测算法,可以使用最小二乘、梯度下降等方法来求解。

最小二乘法被称为最优的估计,这种最优指的是:

连续数据离散化

连续数据离散化就是在数据的取值范围内,设定若干个离散划分点将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值

Hadoop 核心组件

Untitled

OLAP 功能

SQL JOIN:INNER、LEFT、RIGHT、OUTER、LEFT、RIGHT、OUTER 差异

Untitled

HDFS 元数据存放目录

HDFS 的元数据(Metadata)采用

的备份机制

总体均值置信区间的宽度

对于一组给定的样本数据

其平均值为u,标准偏差为δ

则:

标准化系数

z-score=(X-U)/STD,即标准化系数

要体现多个因素 x 对 y的影响,需要按照统一标准对数据进行标准化后 Beta 估算值才具有比较的意义。标准化只会改变回归函数里的系数,回归分析后面需要做假设检验,做标准化是为了公平的看待每个特征的贡献

KNN 算法中 k

在 KNN 算法中k的选取非常重要,KNN 分类准备率对 K 值很敏感

不同的值有可能带来不同的结果。

如果K 选大了的话,可能求出来的 k 最近邻集合可能包含了太多隶属于其它类别的样本点,不具有代表性,最极端的就是 k 取训练集的大小,此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息

如果 K选小了的话,结果对噪音样本点很敏感。在实际中,一般采用交叉验证(一部分样本做训练集,一部分做测试集)或者依靠经验的方法来选取 k 值。k 值初始时取一个比较小的数值,之后不断来调整 K 值的大小来使得样本分类最优,最优时的 K 值即为所选值。

k 值一般为奇数。

有一个经验规则:k 一般低于训练样本数的平方根

标签:数据,数据库,Alibaba,算法,键值,质量,聚类,Professional,Data
来源: https://www.cnblogs.com/uiuing/p/15567868.html