首页 > TAG信息列表 > HIVE
Hadoop生态系统(数据仓库Hive的安装)
一、数据仓库 数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据flink-cdc同步mysql数据到hive
本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use
做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。 然后flink出现以下异常, org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file: hdfs://ns1/user/hive/warehouse/iceberg_ods.db/ods_xxx/metadata/17120-4一文带你体验MRS HetuEngine如何实现跨源跨域分析
摘要: HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实现多数据源的跨源跨域分析能力。 本文分享自华为云社区《MRS HetuEngine体验跨源跨域分析【玩转华为云】》,作者:龙哥手记。 HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实Presto、Spark SQL、Hive的比较
Presto、Spark SQL、Hive的比较 1.Presto Presto只有计算分析能力但可以连接多种数据源,包括Hive,Oracle,MySQL,Kafka,MongoDB,Redis等,并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。 Presto是一个低延迟高并发的内存计算引擎,相比Hive,数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向
@目录概述Spark on HiveHive on Spark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐Executor CPU核数配置Executor CPU内存配置Executor 个数配置Driver配置整体配置 概述 前面的文章都hive on spark 关于hive的配置
1. hive-site.xml root@hadoop101 conf]# vi hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.CExcelToDatabase:批量导入Excel到MySQL/Oracle/SQL Server/Hive数据库的自动化工具
ExcelToDatabase:批量导入Excel到MySQL/Oracle/SQLServer/Hive数据库 简介 ExcelToDatabase 是一个可以批量导入excel到数据库(mysql/oracle/sqlserver/hive)的自动化工具。自动化是其最大的特点,因为它可以根据excel自动导入数据到数据库而不需要做任何映射。批量是它另一个特点,Hive优化-重要
Hiv优化 1.hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more)Hive的基本概念
一、Hive基本概念 1.什么是Hive? hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。 Hive的hive删除表后重新创建时提示表已存在并且卡死
SQL 错误 [1] [08S01]: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.iceberg.exceptions.AlreadyExistsException: Table was created concurrently: iceberg_dw.dw_xxxxxxxx icebergHive-day3
Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。【Hive】使用dbeaver连接内网中的hive
设置ssh连接 这里设置的ssh连接,是跳板机的连接设置 然后是常规的hive-server2的IP和端口设置HiveSql调优系列之Hive严格模式,如何合理使用Hive严格模式
目录综述1.严格模式1.1 参数设置1.2 查看参数1.3 严格模式限制内容及对应参数设置2.实际操作2.1 分区表查询时必须指定分区2.2 order by必须指定limit2.3 限制笛卡尔积3.搭配使用3.1 参数3.2 搭配使用案例 综述 在同样的集群运行环境中,hive调优有两种方式,即参数调优和sql调优。 本【Hive】concat、concat_ws拼接值中有NULL
将多个字段合并成一个字段,我们一般使用concat或concat_ws。 concat 使用concat时,如果如果拼接的字段中有null,结果也会变成null concat_ws 使用concat_ws来拼接时,字段有为null的,结果并不会也变成nulljava通过jdbc连接hive并实时获取日志(转)
转载:https://blog.csdn.net/weixin_43455443/article/details/115343995 4、通过java代码连接hive on spark,使用hive-jdbc引入pom文件 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.1.1</vers大数据分析常用组件、框架、架构介绍(Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase)
首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Java编写,是谷歌的GFS(Google File S ystem)的一Hive中insert into 和 insert overwrite的区别
相同点 insert into 和 insert overwrite 都是往表中插入数据的。 不同点 区别1: insert into :其实是将数据追加到表的末尾,注意 可不是覆盖 是追加。 insert overwrite : 其实是将重写表(或分区)中的内容,即将原来的hive表中的数据(或分区)删除掉,再进行插入数据操作。 提示: 如果hive从Hive中使用HQL语句创建DataFrame--常用方式
默认情况下SparkSession不支持读取Hive中的数据,也不支持操作HQL语法, 如果要读取Hive中的数据,需要开启Hive的支持, 构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setMaster("local[2]").setAppName("demo") val session = Spahive 参数优化
最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置,此处做面试,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性,哈哈哈) 上面的记一次使用“msck repair table 表名”这个命令
背景: 数据导入到hive后,查询不到数据 原因: MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。 我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如metastore作用_Hive安装配置
本文介绍Hive安装配置的整个过程,包括MySQL、Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区别。网上有很多介绍Hive Metastore三种配置方式的文章,但是理解都不对,给读者造成了很多误导。本人详细阅读Apache和CDH官方文档中关于Hive Metastore的部分,并经过实践,终于填元数据治理利器 - Apache Atlas
一、功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团hive functions 大全
show functions 查看了所有的方法把所有的方法记录下来,下次免得去翻别人的博客了 数学函数 数学常规函数 函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negative(4);-4 sin 正弦值 参数无限制数字即可HIVE优化之记录的分离与聚合
行转列 ① CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; ② CONCAT_WS(separator, str1, str2,...): ·它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。 ·分隔符可以是与剩余参数一样的字符串。 ·如果分隔符