首页 > TAG信息列表 > spark

元数据和配置驱动的Python框架,用于使用Spark进行大数据处理

介绍元数据和配置驱动的 Python 框架,用于使用 Spark 进行数据处理!这个功能强大的框架提供了一种简化且灵活的方法来摄取文件、应用转换以及将数据加载到数据库中。通过利用元数据和配置文件,此框架可实现高效且可扩展的数据处理管道。凭借其模块化结构,您可以轻松地使框架适应您的特

数据工程 - 您将在Python和SQL之后学习的技能

SQL和Python有两个完全不同的目的,因为—— SQL 用于编写针对关系数据库的查询。 Python 是一种脚本语言,用于创建应用程序或运行科学和数学模块。Python 可以调用数据库提供程序,而数据库提供程序又可以调用将数据返回到应用程序的 SQL 语句。 数据工程 — 技能打个木

spark参数调优

spark参数调优 目录spark参数调优 1.num-executors2.executor-memory3.executor-cores4.driver-memory5.spark.default.parallelism6.spark.storage.memoryFraction7.spark.shuffle.memoryFraction8.total-executor-cores9.资源参数参考示例后续 1.num-executors 参数说明:该参数

大数据学习路线

大数据学习路线 一、大数据处理流程         1.1 数据收集         1.2 数据存储         1.3 数据分析         1.4 数据应用         1.5 其他框架 二、学习路线         2.1 语言基础         2.2 Linux 基础    

资料分享与工具推荐

这里分享一些自己学习过程中觉得不错的资料和开发工具。

Presto、Spark SQL、Hive的比较

Presto、Spark SQL、Hive的比较 1.Presto Presto只有计算分析能力但可以连接多种数据源,包括Hive,Oracle,MySQL,Kafka,MongoDB,Redis等,并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。 Presto是一个低延迟高并发的内存计算引擎,相比Hive,

1-sparkSQL

Mongo Spark Connector Spark SQL The following code snippets can be found in SparkSQL.scala. Prerequisites Have MongoDB up and running and Spark 2.2.x downloaded. This tutorial will use the Spark Shell allowing for instant feedback. See the introduction fo

spark源码(七)Worker receive 方法

receive 方法其实是大量的case,分别对应处理不同的场景     case msg: RegisterWorkerResponse     case SendHeartbeat    case WorkDirCleanup    case MasterChanged    case ReconnectWorker    case LaunchExecutor    case executor

数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向

@目录概述Spark on HiveHive on Spark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐Executor CPU核数配置Executor CPU内存配置Executor 个数配置Driver配置整体配置 概述 前面的文章都

spark源码(二)Master recive方法

Master recive全部方法     override def receive: PartialFunction[Any, Unit] = {        case ElectedLeader => ......        case CompleteRecovery => ......        case RevokedLeadership => ......        case 

大规模数据分析统一引擎Spark最新版本3.3.0入门实战

@目录概述定义Hadoop与Spark的关系与区别特点与关键特性组件集群概述集群术语部署概述环境准备Local模式Standalone部署Standalone模式配置历史服务高可用(HA)提交流程作业提交原理Standalone-client 提交任务方式Standalone-cluster 提交任务方式Yarn部署Yarn Client模式Yarn Clu

hive on spark 关于hive的配置

1.   hive-site.xml    root@hadoop101 conf]# vi hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.C

Kafka和Spark Streaming实时计算框架整合说明

Spark Streaming只能充当Kafka的消费者 Spark Steaming整合Kafka数据,读取Kafka数据有两种方式 1、Receiver(使用Spark中接受器去处理Kafka的数据)方法----连接zookeeper集群读取数据-----仅作了解(被淘汰) 2、Direct方法--直连kafka集群读取数据 如果Spark Srreaming整合Kafka,需要引

Spark中的Spark Shuffle详解[转]

Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上

spark 日常使用问题集合

1 . spark广播加入错误,即使spark.sql.autoBroadcastJoinThreshold=-1 任务设置spark.sql.autoBroadcastJoinThreshold=-1  但是在实际执行中设置未生效 即使我把它指定为-1,它也要尝试在做一个广播加入 设置spark.sql.adaptive.enabled=false Spark的自适应查询执行在某些情况下

SparkStreaming中的转换算子2--有状态的转换算子updateStateByKey

将之前批次的状态保存, package SparkStreaming.trans import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, StreamingContext} object ByUpdat

大数据分析常用组件、框架、架构介绍(Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase)

首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Java编写,是谷歌的GFS(Google File S ystem)的一

数据源:flume采集到的端口

推送式 将flume采集的数据主动推送给Spark程序,容易导致Spark程序接受数据出问题,推送式整合是基于avro端口下沉地方式完成 引入SparkStreaming和Flume整合的依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <

spark中各个技术点中的依赖

1. sparkcore <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.1</version> 2. sparksql 需要引入jdbc连接和sparksql连接(sparksql中包含了sparkcore,所以不需要单独引入sparkcore)

spark core案例二:清洗过滤

题目描述 /** * 用户的行为日志数据清洗过滤 * 网站的独立访客数:一个唯一的IP地址就是一个独立访客 * 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD * 2、RDD中重复的IP去重 * 3、RDD中的累加值 */ 案例 object A2DataAnaly { d

启动spark

1.启动spark命令 1. start-dfs.sh 2. start-yarn.sh 3. start-spark-all.sh 4. start-history-server.sh 5. spark-shell --master spark://node1:7077 2. 创建RDD数据集 1. 从现有的Scala集合创建RDD数据集 parallelize(Seq, numSlices):第二个参数不用传递,代表创建的RDD的分区

**面试总结

hs面试总结: 1 服务器传输命令 scp:远程文件拷贝程序,是secure copy program的的缩写 -r (递归) 2. 查看服务器运行情况以及cpu,运用哪个命令 top:查看服务器各个进程情况 df -h:linux查看系统内存(硬盘) 3.搭建hadoop生态圈,hadoop的搭建,以及cdh的维护 搭建.hadoop环境集群是个

spark RDD的创建方式

从集合(内存中创建出来)RDDval sparkConf = new sparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) val rdd1 = sparkContext.parallelize( List(1,2,3,4) ) val add2 = sparkContext.makeRDD( List(1,2,

Spark SQL内核剖析 pdf

高清扫描版下载链接:https://pan.baidu.com/s/1pxYliwHYdnd6EOHtzyQsWg 点击这里获取提取码。  

05-集群提交:spark-submit脚本

结构: 命令 + 选项 + 文件 + 参数 基础选项:优先级:代码中配置【程序特有】 > 参数选项【运行模式、程序名称、资源选项】 > 配置文件【公共配置】 --master:用于指定程序的运行的模式:Local、Standalone、YARN、Mesos、K8s local[N]:使用本地模式,给定N核CPU spark://主机名:7077:使