首页 > TAG信息列表 > HiveSQL

HiveSQL 常用函数说明

NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。   CONCAT(col, col2…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串

充分吸收这十题,hivesql面试没问题(上)

第一题 需求: 我们有如下的用户访问数据: userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 2017/1/23 6 U01 2017/2/22 4 要求使用SQL统计出每个用户的累积访问次数,如下表所示: 用户id 月份 小

HiveSQL高级进阶10大技巧

直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升,达到一个较高的层次! 1.删除: insert overwrite tmp select * from tmp where id != '666'; 复制代码 2.更新: 直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将

HiveSQL_添加数据load

创建表 create table person( id int comment "唯一标识", name string comment "名称", likes array<string> comment "爱好", address map<string,string> comment "地址" ) row format delimited fields terminated by ",&quo

使用hiveSQL分离字符串中的字符和数字

目录 0-需求1-数据分析2-总结 0-需求 如果数据中存在字符和数字混在一起的情况且放在一列中,此时需要将其中的数字数据和字符数据分开,分别单独成为一列,应该怎么做? 如下数据: FLINK434354 HADOOP67889 HBASE500019 KAFKA15999 SQOOP13332 HELLO57000 SPARK13000 需要将中文

在HiveSQL执行过程中,报错Exception: Too many counters: 121 max=120

报错信息如下: INFO : Exception: Too many counters: 121 max=120 at org.apache.tez.common.counters.Limits.checkCounters(Limits.java:86) at org.apache.tez.common.counters.Limits.incrCounters(Limits.java:93) at org.apache.tez.common.counters.AbstractCounterGroup

hivesql优化-FileInputFormat中切片的大小的参数

hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行. 而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可以运行的job的最大值,该参数默认为8.此时最大可以同时

hiveSql 执行计划

大致流程: 1、客户端连接hiveserver2(目前大叔多通过beeline连接,hive cli模式相对较重,且直接略过元数据)建立回话 2、提交sql,通过driver进行编译,解析,优化逻辑计划,生成物理计划 3、对物理计划执行优化,并提交到计算引擎 4、返回结果   详细流程 1、 客户端提交查询语句,被driver处理,转

hivesql笔记

一、常用聚合函数 count():计数 count(distinct 字段) 去重统计 sum():求合 avg():平均 max():最大值 min():最小值   二、hivesql执行顺序 from --> where --> group by --> having --> select--> order by--> limit     三、常用函数 1.毫秒时间戳转日期精确到秒 select 

hiveSQL中where后边使用case_when

需求:查询出type 类型是1合2的所有用户信息,但是type=2的用户必须是 sex=1 已知语句 select * from op_al_dd_retain_v where type in (1,2) SELECT * FROM op_al_dd_retain_v WHERE type IN ( 1, 2 ) AND ( CASE WHEN type = 1 AND sex != 1 THEN 0 ELSE 1 END ) = 1以上查询

HiveSQL调优 概括总结

Hive SQL调优 使用分区裁剪、列裁剪少用count(distinct)多对多的关联合理使用MapJoin合理使用Union ALL并行执行job使用本地MR避免数据倾斜控制Map数和Reduce数 Hive sql 的调优在我们日常的工作生活中经常用到,因此,这里做一下细致的总结和归纳。 使用分区裁剪、列裁剪

HiveSQL入门,了解一下

HiveSQL HiveSQL入门,了解一下?

SQL重叠交叉区间问题分析--HiveSQL面试题30

目 录 0 需求分析 1 数据准备 2 数据分析 3 小 结 0 需求分析 如下为平台商品促销 数据: 字段为品牌,打折开始日期,打折结束日期 id stt edtoppo2021-06-052021-06-09oppo2021-06-112021-06-21vivo2021-06-052021-06-15vivo2021-06-092021-06-21redmi2021-06-052021-06-21redmi2

HiveSQL常用(下篇:使用技巧与优化)

很高兴遇到你~ (1)Hive常用日期格式处理 (2)Hive常用函数 (3)Hive常用语句(实用) 数据加载清理与建表 表检索与表结构查询 (4)HiveSQL使用技巧与优化 (5)HiveSQL使用注意项   HiveSQL使用技巧与优化 SQL执行顺序:FROM->JOIN->WHERE->GROUP BY->HAVING->SELECT->ORDER BY->LIMIT   distinct

HiveSQL常用(上篇:常用函数与语句)

很高兴遇到你~ (1)Hive常用日期格式处理 (2)Hive常用函数 (3)Hive常用语句(实用) 数据加载清理与建表 表检索与表结构查询 (4)HiveSQL使用技巧与优化 (5)HiveSQL使用注意项   Hive常用日期格式处理 --获取当前日期 select current_date; --2021-06-20 select current_timestamp; --2021-

MYSQL/HIVESQL笔试题(六):HIVESQL(六)

面试题目一 场景:一个日志表中记录了某个商户费率变化状态的所有信息,现在有个需求,要取出按照时间轴顺序,发生了状态变化的数据行; 1.数据如下: create table datafrog_merchant (f_merchant_id varchar(20), f_rate varchar(20), f_date date ); insert into datafrog_merchant v

MYSQL/HIVESQL笔试题:HIVESQL(四)

7 手写HQL 第7题 有一个线上服务器访问日志格式如下(用sql答题) 时间                    接口                         ip地址 2016-11-09 11:22:05    /api/user/login                  110.23.5.33 2016-11-09 1

MYSQL/HIVESQL笔试题:HIVESQL(五)

10 手写HQL 第10题 1.用一条SQL语句查询出每门课都大于80分的学生姓名 name   kecheng   fenshu 张三    语文    81 张三    数学    75 李四    语文    76 李四    数学     90 王五    语文    81 王五    数学    100

MYSQL/HIVESQL笔试题:HIVESQL(一)分组求TopN/行转列/列转行

1 分组求TopN 一、先看数据: 使用HiveSQL常用的方式为: Select * from table, row_number() over(partition by item order by score desc) rank where rank<=2; 二、输出结果为: 三、解析:row_number()函数基于over对象分组、排序的记过,为每一行分组记录返回一个序号,该序号从1开始,

面试必备技能-HiveSQL优化

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。   Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数

Hive/HiveSQL常用优化方法全面总结

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。 《2021年最新版大

面试必备技能-HiveSQL优化

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其他

Hive/HiveSQL常用优化方法全面总结

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。 《2021年最新版大

HiveSQL问题若干

  一、 on 和 where 条件执行顺序 inner join: 二者同时发挥作用。 若有「分区」条件,则优先执行分区条件。 会对on中关联键进行 is not NULL 过滤操作 left join/right join: 非主表时:先执行on ,再执行left join,再执行where 主表:先 where on ,再执行left join Tip: a left jo

HiveSQL函数总结

数学函数 保留几位小数(四舍五入) -- MySQL可用 select round(1.23456, 3) AS f; -- 取值为 1.235    向下取整 -- MySQL可用 SELECT FLOOR(1.234) AS I; -- 取值为1    求开方 -- MySQL可用 SELECT SQRT(9) AS s; -- 取值3.0   求模|求余数  -- MySQL不可用 SELECT