首页 > TAG信息列表 > 商数
电商数仓学习-DWD层设计开发(19)
数仓DWD层设计开发 前言 一、互动域收藏商品事务事实表 1.建表语句 2.首日装载语句 3.每日装载语句 二、互动域评价事务事实表 1.建表语句 2.首日装载 3.每日装载语句 前言 前面完成了工具域3张事务事实表的设计,下面继续进行DWD层互动域事务事实表的设计 一、电商数仓学习-数据仓库指标体系分析(12)
数据仓库指标体系分析 前言 一、最近1/7/30日各渠道访客数 二、最近1/7/30日各渠道会话平均停留时长 三、最近1/7/30日各渠道总会话数 四、最近1/7/30日各渠道跳出率 五、最近1/7/30日页面浏览路径分析(各跳转次数) 六、流失用户数 七、流失用户数 八、用户新增留存率 九情商的定义
情商 (情绪、意志、性格、行为习惯组成的商数)通常是指情绪商数,简称EQ,主要是指人在情绪、意志、耐受挫折等方面的品质,其包括导商(LQ)等。总的来讲,人与人之间的情商并无明显的先天差别,更多与后天的培养息息相关。它是近年来心理学家们提出的与智商相对应的概念。从最简单的层次上【离线电商数仓】Day04-即席查询(Ad Hoc):Presto链接不同数据源查询、Druid建多维表、Kylin使用cube快速查询
一、Presto 1、简介 概念:大数据量、秒级、分布式SQL查询engine【解析SQL但不是数据库】 架构 不同worker对应不同的数据源(各数据源有对应的connector连接适配器) 优缺点 缺点:读数据连查表会产生大量临时数据 与impala比较 Impala性能稍领先于Presto,但是Presto在数据源支持上非c语言 PAT 1017 A除以B (20 分) 本题要求计算 A/B,其中 A 是不超过 1000 位的正整数,B 是 1 位正整数。你需要输出商数 Q 和余数 R,使得 A=B×Q+R 成立。
1017 A除以B (20 分) 本题要求计算 A/B,其中 A 是不超过 1000 位的正整数,B 是 1 位正整数。你需要输出商数 Q 和余数 R,使得 A=B×Q+R 成立。 输入格式: 输入在一行中依次给出 A 和 B,中间以 1 空格分隔。 输出格式: 在一行中依次输出 Q 和 R,中间以 1 空格分隔。 输入样例: 1234567电商数仓系统1
文章目录 第1章 数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名1.3.2 脚本命名1.3.3 表字段类型 第2章 数仓理论2.1 范式理论2.1.1 范式概念2.1.2 函数依赖2.1.3 三范式区分2.2.1 关系建模2.2.2 维度建模 2.3 维度表和事实表(重点)2.3.1电商数仓
1 数据仓库的概念 数据仓库(Data Warehouse )可简写为DW或DWH。数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。 通过对数据仓库中数据的分析,可以帮助企业改进业务流程、挖制成本、提高产品质量等。 数据仓库并不是数据的最终目的她,而是为数据最终的目的她做电商数仓3.0 - 电商数据仓库系(1) - 知识点总结
1. 三大范式 第一范式 属性不可分割 第二范式 不能存在“部分函数依赖” 第三范式 不能存在传递函数依赖 2. 关系建模与维度建模 联机事物处理 - OLTP OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 联机分析处理 - OLAP OLAP项目实战从0到1之hive(45)大数据项目之电商数仓(用三)
第20章 需求九:每个用户累计访问次数 结果如下 用户 日期 小计 总计mid1 2019-12-14 10 10mid1 2019-02-11 12 22mid2 2019-12-14 15 15mid2 2019-02-11Python基础--Python学习笔记
Python基础 数字操作符 **指数%取余数//整除/商数取整*乘/除+加-减 优先级:** > *、/、//、% > +、- 变量名的命名规则 只能是一个词只能包含字母、数字、下划线不能以数字开头 注:变量名不区分大小写实时电商数仓(三十三)之实时计算(十二)dws层(四)订单明细实付金额分摊(三)发布数据接口
发布数据接口 1 代码清单 控制层 PublisherController 实现接口的web发布 服务层 ClickhouseService 数据业务查询interface ClickhouseServiceImpl 业务查询的实现类 数据层 OrderMapper 数据层查询的interface OrderMapper.xml 数据层查实时电商数仓(二十五)之实时计算(四)日活处理模块(四)利用kibana 搭建数据可视化
利用kibana 搭建数据可视化 如果数据保存在Elasticsearch那么利用kibana进行可视化展示是一种非常高效的可视化解决方案。 这种kibana可视化方案,优势是快速高效。但是对于展示效果的定制化和炫酷程度不能有太高的要求。 步骤一 :创建 index patten 其实就是创建数据源 确定数据范围实时电商数仓(二十四)之实时计算(三)日活处理模块(三)日活数据查询接口
日活数据查询接口 1 访问路径 总数 http://publisher:8070/realtime-total?date=2019-02-01 分时统计 http://publisher:8070/realtime-hour?id=dau&date=2019-02-01 2 要求数据格式 总数 [{"id":"dau","name":"新增日活","valu实时电商数仓(九)之数据采集(八)数据库数据采集(三)canal安装
1 mysql的准备 1.1 导入模拟业务数据库 1.2 赋权限 在mysql中执行 GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' IDENTIFIED BY 'canal' ; 1.3 修改/etc/my.cnf文件 server-id= 1 log-bin=mysql-bin binlog_format=row binlog实时电商数仓(二)之数据采集(一)模拟日志生成器的使用
1 拷贝日志生成jar包到虚拟机的某个目录 2 修改application.properties mock.url 指的是后端服务器的地址 3、使用模拟日志生成器的jar 运行 java -jar gmall2020-mock-log-2020-04-01.jar离线电商数仓(六十)之元数据管理(八)Ranger (三)使用Ranger对Hive进行权限管理
1.1 权限控制初体验 查看默认的访问策略,此时只有admin用户拥有对所有库、表和函数的访问权限 验证:使用atguigu用户尝试进行登录,登录成功后,执行查询语句: 之后使用admin用户进行登录,可以完成Hive的所有操作 1.2 为用户配置权限 例如为atguigu用户配置default库emp和d离线电商数仓(四十九)之系统业务数据仓库(二十)数据导出与全流程调度
1 Sqoop导出脚本 1)编写Sqoop导出脚本 在/home/atguigu/bin目录下创建脚本hiveTomysql.sh [atguigu@hadoop102 bin]$ vim hiveTomysql.sh 在脚本中填写如下内容 #!/bin/bash hive_db_name=gmall mysql_db_name=gmall_view export_data() { /opt/module/sqoop/bin/sqoop expor大数据实战(八十一):电商数仓(六十五)安全之Kerberos安全认证(一)概述与安装
1 Kerberos概述 1.1 什么是Kerberos Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方大数据实战(五十九):电商数仓(四十二)之系统业务数据仓库(十五)商品每日销量排行Top10
1 DWS层 使用用户购买商品明细宽表作为DWS数据 2 ADS层 2.1 建表语句 drop table if exists ads_goods_order_count_day; create external table ads_goods_order_count_day( dt string comment '统计日期', sku_id string comment '商品id', order_cou大数据实战(四十七):电商数仓(三十)之系统业务数据仓库(三)数仓搭建(一)业务数据生成
0 配置Hadoop支持Snappy压缩 1)将编译后支持Snappy压缩的Hadoop jar包解压缩,并将lib/native目录中所有文件上传到hadoop102的/opt/module/hadoop-2.7.2/lib/native目录,并分发到hadoop103 hadoop104。 2)重新启动Hadoop。 3)检查支持的压缩方式 [atguigu@hadoop102 nativ大数据实战(四十三):电商数仓(三十六)之用户行为数据仓库(二十二)用户行为数仓业务总结
1.1 数仓分几层?每层做什么的? 1)ODS层(原始数据层) 存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 2)DWD层(明细层) 对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据) 3)DWS层(服务数据层) 以DWD层为基础,进行轻度汇总。比如:用户当日、设备当日、商品当日。 4)ADS层(数据大数据实战(四十四):电商数仓(三十七)之用户行为数据仓库(二十三)Hive总结
1 Hive的架构 2 Hive和数据库比较 Hive 和数据库除了拥有类似的查询语言,再无类似之处。 1)数据存储位置 Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。 2)数据更新 Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟大数据实战(三十九):电商数仓(三十二)之用户行为数据仓库(十八)每个用户累计访问次数
0 每个用户累计访问次数 结果如下 用户 日期 小计 总计 mid1 2019-12-14 10 10 mid1 2019-02-11 12 22 mid2 2019-12-14 15 15 mid2 2019-02-11 12 27 1 DWS层 1.1 建表语句 hive (gmall)> drop table if exists dws_user_total_count_day; create ex大数据实战(三十七):电商数仓(三十)之用户行为数据仓库(十六)流失用户数
流失用户:最近7天未登录我们称之为流失用户 1 DWS层 使用日活明细表dws_uv_detail_day作为DWS层数据 2 ADS层 1)建表语句 hive (gmall)> drop table if exists ads_wastage_count; create external table ads_wastage_count( `dt` string COMMENT '统计日期',大数据实战(三十四):电商数仓(二十七)之用户行为数据仓库(十三)用户留存主题
1 需求目标 1.1 用户留存概念 1.2 需求描述 用户留存分析 2 DWS层 2.1 DWS层(每日留存用户明细表) 1)建表语句 hive (gmall)> drop table if exists dws_user_retention_day; create external table dws_user_retention_day ( `mid_id` stri