首页 > TAG信息列表 > iteblog

iceberg数据读取流程

    假设我们的表是存储在 Hive 的 MetaStore 里面的,表名为 iteblog,并且数据的组织结构如上如所示。 1.查询最新快照的数据 •通过数据库名和表名,从 Hive 的 MetaStore 里面拿到表的信息。从表的属性里面其实可以拿到 metadata_location 属性,通过这个属性可以拿到 iteblog 表的

SQL----每天一个小函数之常用函数汇总三

条件函数 1、If函数: if 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull hive> select if(1=2,100,200) from iteblog; 200 hive> select if(1=1,100,200) from iteb

图文带你理解 Apache Iceberg 时间旅行是如何实现的?

为了更好的使用 Apache Iceberg,理解其时间旅行是很有必要的,这个其实也会对 Iceberg 表的读取过程有个大致了解。不过在介绍 Apache Iceberg 的时间旅行(Time travel)之前,我们需要了解 Apache Iceberg 的底层数据组织结构。Apache Iceberg 的底层数据组织我们在 《一条数据在 Apache

一条数据在 Apache Iceberg 之旅:写过程分析

本文基于 Apache Iceberg 0.9.0 最新分支,主要分析 Apache Iceberg 中使用 Spark 2.4.6 来写数据到 Iceberg 表中,也就是对应 iceberg-spark2 模块。当然,Apache Iceberg 也支持 Flink 来读写 Iceberg 表,其底层逻辑也 Spark 类似,感兴趣的同学可以去看看。使用 Spark2 将数据写到 Apach

Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展

Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展机器学习库 iteblog 过往记忆大数据   Apache Hivemall是机器学习算法(machine learning algorithms)和多功能数据分析函数(versatile data analytics functions)的集合,它通过Apache Hive UDF / UDAF / UDTF接口提供

Spark 2.0介绍:Catalog API介绍和使用

Spark 2.0介绍:Catalog API介绍和使用 iteblog 过往记忆大数据   《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的

如何在 Apache Hive 中解析 Json 数组

如何在 Apache Hive 中解析 Json 数组 过往记忆大数据 过往记忆大数据 本文原文:https://www.iteblog.com/archives/2362.html (点击下面 阅读原文 即可进入) 问题 我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Fun

.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 预览版正式发布 过往记忆大数据 过往记忆大数据 本文原文(点击下面阅读原文即可进入) https://www.iteblog.com/archives/2544.html 2019年4月25日,微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为 《

一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pru

一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning) 过往记忆大数据 过往记忆大数据 静态分区裁剪(Static Partition Pruning) 用过 Spark 的同学都知道,Spark SQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询: SELECT * FROM Sales_iteblog WHERE day_of_week

Apache Spark 中支持的七种 Join 类型简介

Apache Spark 中支持的七种 Join 类型简介 过往记忆大数据 过往记忆大数据 数据分析中将两个数据集进行 Join 操作是很常见的场景。我在 这篇 文章中介绍了 Spark 支持的五种 Join 策略,本文我将给大家介绍一下 Apache Spark 中支持的 Join 类型(Join Type)。 目前 Apache Spark 3.0

一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partitio标题文章

一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning) 过往记忆大数据 过往记忆大数据 静态分区裁剪(Static Partition Pruning) 用过 Spark 的同学都知道,Spark SQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询:SELECT FROM Sales_iteblog WHERE day_of_week =

Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析

Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析 过往记忆大数据 过往记忆大数据原计划在2019年年底发布的 Apache Spark 3.0.0 今天终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月!这个版本的

Java 8 Stream API 入门者教程

Java 8 Stream API 入门者教程 过往记忆大数据 过往记忆大数据 Java 8 给我们带来了一个新功能,也就是本文要介绍的 Stream API,它可以让我们以一种声明的方式处理数据。Stream 使用一种类似于 SQL 的语法来提供一种对 Java 集合运算和表达的高阶抽象。极大提高 Java 程序员的生产

Apache Spark 3.0 预览版正式发布,多项重大功能发布

2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的主要目的是为了让社区提前尝

激活idea

以下三种地址:任选其一填入license server:     http://intellij.mandroid.cn/     http://idea.imsxm.com/     http://idea.iteblog.com/key.php 第一个不行换第二个哦. 本人使用的idea版本是2017.2.6 下载链接为: 链接:https://pan.baidu.com/s/1LNIucD48FdCWLQJ_KNJeFw

IntelliJ IDEA最新2019注册码

在线免费生成license地址:http://idea.iteblog.com/ License server地址:http://idea.iteblog.com/key.php idea 注册码地址:http://idea.lanyus.com/ 注意: 如果使用 在线免费生成license地址:http://idea.iteblog.com/  遇到 This license ABCD789 has been cancelled 这样的错误

通过Hive将数据写入到ElasticSearch

我在《使用Hive读取ElasticSearch中的数据》文章中介绍了如何使用Hive读取ElasticSearch中的数据,本文将接着上文继续介绍如何使用Hive将数据写入到ElasticSearch中。在使用前同样需要加入 elasticsearch-hadoop-2.3.4.jar 依赖,具体请参见前文介绍。我们先在Hive里面建个名为iteblog