其他分享
首页 > 其他分享> > Day17:业务分析:访问与咨询主题

Day17:业务分析:访问与咨询主题

作者:互联网

知识点01:回顾

  1. OLTP与OLAP的应用和区别?
    • 联机事务处理
      • 面向业务数据存储
      • 数据使用者:用户
      • 特点:数据量小、支持事务、性能比较高
    • 联机分析处理
      • 面向数据分析处理
      • 数据使用者:决策层、运营人员
      • 特点:数据量大、不需要支持事务、性能要求不高
  2. 数据仓库的功能与应用场景是什么?
    • 功能:为了满足OLAP的应用场景而 实现的数据管理模型
      • 存储:统一化数据管理
      • 处理:规范化的数据加工
    • 应用:统一化的和规范化的数据管理场景
      • 离线数据仓库:Hive
      • 实时数据仓库:Kafka
  3. 数据仓库的核心特点有哪些?
    • 面向主题:以分析主题的形式来管理数据
      • 数据库:面向业务
      • 数据仓库:面向主题
        • 数据仓库:DW:存储整个公司所有数据
          • 数据集市/主题域:DM:根据每个部门的需求划分不同的数据
            • 分析主题:每个主题所对应的数据结果
    • 数据集成:整体存放了整个公司所有需要处理的数据
      • 数据仓库本身不产生数据,也不使用数据
    • 非易失:一般没有更新和删除的业务需求
    • 时变性:数据会随着时间的变化数据不断更新
  4. 什么是指标?常见的指标有哪些?什么是维度?常见的维度有哪些?
    • 指标:对数据统计分析的结果,通过数值来进行体现
    • 常见指标:UV、PV、IP、跳出率、二跳率、平均访问时长
    • 维度:看待事实的角度,用于细化指标的结果,精确发现问题
    • 常见维度:时间维度、地区维度、平台维度……
  5. 事实指标值分为哪几类?事实表分为哪几类?
    • 事实指标值的分类
      • 可累加事实:在任何维度下,指标的值都可以进行累加
      • 半可累加事实:在一定维度下,指标的值可以进行累加
      • 不可累加事实:在任何维度下,指标的值都不可以进行累加
    • 事实表的分类
      • 事务事实表:原始数据表
        • 每一条订单的信息
      • 周期快照事实表:按照一定周期对事务事实进行聚合分析的结果
        • 每个月订单的汇总结果
      • 累积快照事实表
      • 无事实事实表:维度关联的
  6. 什么是星型模型?与雪花模型有什么区别?
    • 星型模型:所有维度表直接关联在事实表上,维度表没有子维度表
      • 优点:减少了数据关联,提高了查询性能
      • 缺点:数据存在冗余
    • 雪花模型:维度表有子维度表
      • 优点:数据没有冗余
      • 缺点:数据关联比较麻烦,性能比较差
  7. 维度数据发生变化,如何处理发生变化的数据?
    • SCD1:直接以新的状态覆盖老的状态
    • SCD2:拉链表:记录所有状态,通过对应的时间去标记每个状态
      • start:状态开始时间
      • end :状态结束时间,如果是最新状态,一般给9999-12-31
    • SCD3:通过增加列来实现记录新的状态
  8. 为什么要分层,常见的层次有哪些以及功能是什么?
    • 设计:分层决定了数据处理步骤
    • 常见的层级
      • ODS:原始数据层
        • 存放原始数据
      • DW:数据仓库层
        • DWD:明细数据层
          • 对ODS层的数据进行ETL
        • DWM:中间数据层
          • 对DWD层的数据进行轻度聚合
        • DWS:汇总数据层
          • 对上一层数据进行汇总聚合,得到所有指标的宽表
      • DA:数据应用
        • 应用的数据结果

知识点02:目标

知识点03:访问与咨询业务流程

知识点04:访问与咨询需求

知识点05:访问与咨询原始数据

在这里插入图片描述

- 来自于用户的访问,用户没每访问一个页面就会记录一条日志信息

  ```
  id	userid		sessionId		ip				create_time				url		refere_url
  1	userid1		sesionid1	192.168.111.11		2020-11-11 12:30:30		url1	www.baidu.com
  2	userid1		sesionid1	192.168.111.11		2020-11-11 12:30:31		url2	url1
  3	userid1		sesionid2	192.168.111.11		2020-11-11 14:30:31		url3	www.sougou.com
  4	userid2		sesionid3	192.168.111.12		2020-11-11 14:30:31		url3	www.baidu.com
  ```

  - UV:2
  - SessionId:3
  - PV:4
  - IP:2

知识点06:访问数仓设计分析

知识点07:修改Hive注释支持中文

知识点08:访问ODS层构建及数据采集

在这里插入图片描述

- web_chat_text_ems

  ```shell
  sqoop import \
  --connect jdbc:mysql://node3:3306/nev \
  --username root \
  --password 123456 \
  --driver com.mysql.jdbc.Driver \
  --query 'select id,referrer,from_url,landing_page_url,url_title,platform_description,other_params,history, "2019-07-01" as start_time from web_chat_text_ems_2019_07 where $CONDITIONS' \
  --hcatalog-database itcast_ods \
  --hcatalog-table web_chat_text_ems \
  --hcatalog-storage-stanza 'stored as orc tblproperties ("orc.compress"="ZLIB")' \
  -m 2 \
  --split-by id
  ```

知识点09:访问DWD层构建

知识点10:访问DWS层构建

知识点11:访问APP层构建

知识点12:咨询业务及ODS、DWD构建

知识点13:咨询DWS层构建

知识点14:咨询APP层构建

知识点15:可视化方案

知识点16:FineBI的介绍及部署

   use scrm_bi;
   drop table if exists itcast_consult;
   
   CREATE TABLE `itcast_consult` (
     sid_total int(11) COMMENT '根据sid去重求count',
     sessionid_total int(11) COMMENT '根据sessionid去重求count',
     ip_total int(11) COMMENT '根据IP去重求count',
     area varchar(32) COMMENT '区域信息',
     origin_channel varchar(32) COMMENT '来源渠道',
     hourinfo varchar(32) COMMENT '小时信息',
     quarterinfo varchar(32) COMMENT '季度',
     time_str varchar(32) COMMENT '时间明细',
     groupType varchar(32) COMMENT '产品属性类型:1.地区;2.搜索来源;3.来源渠道;4.会话来源页面;5.不考虑',
     time_type varchar(32) COMMENT '时间聚合类型:1、按小时聚合;2、按天聚合;3、按月聚合;4、按季度聚合;5、按年聚合;',
     yearinfo varchar(32) COMMENT '年信息',
     monthinfo varchar(32) COMMENT '月信息',
     dayinfo varchar(32) COMMENT '日信息'
   )ENGINE=InnoDB AUTO_INCREMENT=22 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

知识点15:可视化方案

知识点16:FineBI的介绍及部署

标签:count,dayinfo,STRING,monthinfo,访问,Day17,time,咨询,yearinfo
来源: https://blog.csdn.net/qq_45925467/article/details/116672609