首页 > TAG信息列表 > hop01
实时计算框架:Flink集群搭建与运行机制
一、Flink概述 1、基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink不OLAP引擎:基于Presto组件进行跨数据源分析
一、Presto概述 优惠券 https://www.fenfaw.cn/ 1、Presto简介 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节,Presto虽然具备解析SQL的能力,但它并不属于标准的数据库范畴。 Presto支持在线数据查询,包括Hive,关系数据库以及专有数据存储。一条PrOLAP引擎:基于Presto组件进行跨数据源分析
一、Presto概述 1、Presto简介 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节,Presto虽然具备解析SQL的能力,但它并不属于标准的数据库范畴。 Presto支持在线数据查询,包括Hive,关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进Hadoop框架:集群模式下分布式环境搭建
转: Hadoop框架:集群模式下分布式环境搭建 本文源码:GitHub·点这里 || GitEE·点这里 一、基础环境配置 1、三台服务 准备三台Centos7服务,基础环境从伪分布式环境克隆过来。 133 hop01,134 hop02,136 hop03 2、设置主机名 ## 设置名称 hostnamectl set-hostname hop01 ## 重启 reboOLAP引擎:基于Druid组件进行数据统计分析
一、Druid概述 1、Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件。 与现在相对热门的Clickhouse引擎相比,DruOLAP引擎:基于Druid组件进行数据统计分析
一、Druid概述 1、Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件。 与现在相对热门的Clickhouse引擎相比,Dr数据调度组件:基于Azkaban协调时序任务执行
一、Azkaban概述 1、任务时序 在数据服务的业务场景中,很常见的业务流程就是日志文件经过大数据分析,再向业务输出结果数据;在该过程中会有很多任务需要执行,并且很难精准把握任务执行的结束时间,但是又希望整个任务链尽快结束释放资源。 大致执行顺序如下: 业务日志文件同步到HDFS文件数据搬运组件:基于Sqoop管理数据导入和导出
本文源码:GitHub || GitEE 一、Sqoop概述 Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive、HBase等)与传统的数据库(mysql、postgresql、oracle等)间进行数据的传递。 通常数据搬运的组件基本功能:导入与导出。 鉴于Sqoop是大数据技术体系的组件,所以关系型数据库导入Hadoop存储Hadoop框架:HDFS高可用环境配置
本文源码:GitHub·点这里 || GitEE·点这里 一、HDFS高可用 1、基础描述 在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题,如果单个节点出现故障,可通过该方式Hadoop框架:DataNode工作机制详解
本文源码:GitHub·点这里 || GitEE·点这里 一、工作机制 1、基础描述 DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验、时间戳; DataNode启动后向NameNode服务注册,并周期性的向NameNode上报所有的数据块元数据信息; DataNode