其他分享
首页 > 其他分享> > 数据分析需要知道的一些概念

数据分析需要知道的一些概念

作者:互联网

目录

一、什么是商业智能

BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

二、什么是数据仓库

DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来

三、什么是数据挖掘

DM:Data Mining,数据挖掘
数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息

  1. 数据清洗
    去除重复数据、干扰数据及填充缺失值
  2. 数据集成
    将多个数据源中的数据存放在一个统一的数据存储中
  3. 数据变换
    将数据转换成适合数据挖掘的形式,比如将数值东篱一个特定的0~1的区间

数据挖掘的核心

  1. 分类
    通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
    分类是已知了类别,然后看样本属于哪个分类
  2. 聚类
    将数据自动聚类成几个类别,
    聚类是不知道有哪些类别,按照 样本的属性来进行聚类
  3. 预测
    通过当前和历史数据预测未来趋势,可以更好地帮助我们识别机遇和风险
  4. 关联分析
    发现数据中的关联规则,被广泛应用于购物、事务数据分析中

数据挖掘的基本流程

  1. 商业理解。从商业的角度理解项目需求
  2. 数据理解 。尝试收集部分数据,对数据进行探索
  3. 数据准备。开始收集数据,并进行清洗、集成等操作
  4. 模型建立。选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果
  5. 模型评估。对模型进行评价,确认模型是否实现了预定的商业目标
  6. 上线发布。把挖掘的知识转换成用户的使用形式

四、数据挖掘的数学基础

五、数据挖掘的十大算法

六、什么是数据可视化

数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息,让我们直观了解数据分析的结果

数据可视化工具:

七、什么是用户画像

简单的说,用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像
用户标签能产生的业务价值

  1. 在获客上,找到优势的宣传渠道,通过个性化的宣传手段吸引有潜在需求的用户
  2. 在粘客上,提升用户的单价和消费频次
  3. 在留客上,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%

用户标签4个纬度

  1. 基础信息
    性别、年龄、地域、收入、学历、职业等
  2. 消费信息
    消费习惯、购买意向、是否对促销敏感
  3. 行为分析
    时间段、频次、时长、访问路径
  4. 内容分析
    浏览的内容、停留时长、浏览次数,内容类型,如金融、娱乐、教育、体育、时尚、科技等

数据处理的3个阶段

  1. 业务层
    获客预测、个性化推荐、用户流失率、GMV趋势预测
  2. 算法层
    用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
  3. 数据层
    用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

八、什么是埋点

在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋点的方式

九、数据采集都有哪些方式

十、什么是数据清洗

数据清洗是去除重复数据、干扰数据及填充缺失值
数据清洗的4个关键点(完全合一)

  1. 完整性:单条数据是否存在空值,统计的字段是否完善
  2. 全面性:观察某一列的全部数值,判断列是否有问题,比如:数据定义、单位标识、数值本身。例如有的单位是克,有的是千克或磅
  3. 合法性:数据的类型、内容、大小的合法性。例如存在非ASCII字符,性别未知,年龄超过150岁等。
  4. 唯一性:数据是否存在重复记录。因为数据通常来自不同渠道的汇总,重复的情况是常见的,行和列数据都需要是唯一的

十一、什么是数据集成

数据集成是将多个数据源合并存放在一个数据存储中(如数据仓库)
大数据项目中80%的工作都和数据集成有关。

Extract / 提取 :从datasource/txt/csv/Excel/等原始数据源中 Extract数据。
Transform / 转换 :将数据预处理,字段补全、类型检查、去除重复数据等,根据预定的条件将数据统一起来。
Load / 装载 :将转换完的数据存到数据仓库中。

数据集成的两种架构

  1. ELT
    过程为数据提取(Extract)——转换(Transform)——加载(Load),在数据源抽取后首先进行转换,然后将转换的结果写入目的地。

  2. ETL
    过程为数据提取(Extract)——加载(Load)——转换(Transform),在数据抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部框架,如Spark来完成转换的步骤。

商业软件:

开源软件:

ETL和ELT的区别:
ETL和ELT主要是先清洗数据还是先入库的区别。
ETL一般使用主流框架用程序在提取的时候就将数据进行清洗,ELT则是将数据存到数据仓库,再用sql进行数据清洗。

未来使用ELT作为数据集成架构的会越来越多,有以下好处:

  1. 使用 ELT 方法,在提取完成之后,数据加载会立即开始。一方面更省时,另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据,为分析师提供了更大的灵活性,使之能更好地支持业务。
  2. 在 ELT 架构中,数据变换这个过程根据后续使用的情况,需要在 SQL 中进行,而不是在加载阶段进行。这样做的好处是你可以从数据源中提取数据,经过少量预处理后进行加载。这样的架构更简单,使分析人员更好地了解原始数据的变换过程。

十二、什么是数据变换

数据变换是数据准备的重要环节,通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式

  1. 数据平滑。去除数据中的噪声,将连续数据离散化
  2. 数据聚集。对数据进行汇总,例如Sum、Max、Mean等
  3. 数据概化。将数据由较低的概念抽象成较高的概念,如北上广深圳概化为中国。
  4. 数据规范化。合属性数据按比例缩放,将原来的数值映射到新的特定区域中。
    • min-max规范化。
      将原始数据变化到[0, 1]的空间中,公式为:新数值=(原数值-极小值) / (极大值-极小值),对应的有SciKit-Learn的preprocessing.MinMaxScaler函数
    • z-score规范化。
      可以用相同的标准比较不同规格的成绩。公式为:新数值=(原数值-均值) / 标准差。对应的有SciKit-Learn的preprocessing.scale函数,求出每行每列的值减去了平均值,再除以方差的结果,使得数值都符合均值为0,方差为1的正态分布
    • 小数定标规范化。
      通过移动小数点的位置来进行规范化
  5. 属性构造。构造出新的属性并添加到属性集中。

十三、什么是方差、标准差

标签:数据分析,需要,用户,数值,概念,标准差,数据挖掘,数据,ELT
来源: https://www.cnblogs.com/chenqionghe/p/12247109.html