SparkCore

首页 > TAG信息列表 > SparkCore

spark中各个技术点中的依赖

1. sparkcore <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.1</version> 2. sparksql 需要引入jdbc连接和sparksql连接(sparksql中包含了sparkcore，所以不需要单独引入sparkcore)

sparkcore案例四：统计每个省份的用户访问量

题目： /** * 统计每个省份的用户访问量，最终要求将不同省份用户访问量存放到不同的分区中分区存放规则如下 * 省份是以包含山 0 * 如果省份包含海 1 * 其他省份 2 */ 代码： package sparkcorerddexample import org.apache.spark.rdd.RDD import org

sparkcore案例三：获取每一种状态码对应的访问量

题目描述： /** * 清洗完成的数据中包含一个用户的响应状态码，获取每一种状态码对应的访问量 * 1、读取清洗完成的数据成为RDD[String] * 2、可以把上一步得到的RDD通过map算子转换成一个键值对类型的RDD，以状态码为key 以不同用户的访问日志为value的数据 * 3、键值对类

|NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.

[BigDataHadoop：Hadoop&OLAP数据库管理系统.V16] [Deployment.OLAP数据库管理系统][|Kylin：sparkcore高可用配置|]一、高可用配置：spark standalone集群配置### --- 修改 spark-env.sh 文件，并分发到集群中 [root@hadoop01 ~]# vim $SP

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa

[BigDataHadoop：Hadoop&Spark.V11] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore：RDD编程高阶&spark原理初探&shuffle原理|]一、Shuffle原理### --- shuffle原理 ~~~ Shuffle的本意是

|NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar

[BigDataHadoop：Hadoop&Spark.V06] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore：Spark-Standalone集群模式&standalone配置&core&mamory|]一、集群模式--Standalone模式### --- 集群模式-

spark学习路线

尚硅谷大数据Spark教程从入门到精通 001.尚硅谷_Spark框架 - 简介 002.尚硅谷_Spark框架 - Vs Hadoop 003.尚硅谷_Spark框架 - 核心模块 - 介绍 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备 005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析 006.尚硅谷_Spark框架 -

SparkCore 对共享变量也提供了两种支持：1. 累加器 2. 广播变量

正常情况下, 传递给 Spark 算子(比如: map, reduce 等)的函数都是在远程的集群节点上执行, 函数中用到的所有变量都是独立的拷贝. 这些变量被拷贝到集群上的每个节点上, 都这些变量的更改不会传递回驱动程序. 支持跨 task 之间共享变量通常是低效的, 但是 Spark 对共享变量也提供

SparkCore中的Key-Value 类型 RDD 的数据分区器

1.1 HashPartitioner HashPartitioner分区的原理：对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于 0，则用余数+分区的个数（否则加0），最后返回的值就是这个key所属的分区ID。 1.2 RangePartitioner HashPartitioner 分区弊端：可能导致每个分区中数据量的不均匀，极端情况下

SparkCore中RDD开发API边缘_广播变量【broadCast】的使用案例

SparkCore中RDD开发API边缘_广播变量【broadCast】的使用案例广播变量主要应用于“需要进行map端join”的场合就是把一份小体量的数据，直接让每个executor持有一份拷贝，在task的计算逻辑中直接可用而不用通过两个rdd去join import cn.doitedu.spark.util.SparkContextUtil i

SparkCore-常用转换算子总结

主要是分为三个类型：Value 类型、双 Value 类型和 Key-Value 类型。 1.Value类型 1.1map 传递一个对象，返回一个对象源码中给的解释机翻如下：通过对这个RDD的所有元素应用一个函数，返回一个新的RDD。说人话就是：将处理的数据逐条进行映射转换，可以是类型的转换，也可以是值的转换

大数据开发之SparkCore中RDD特点

什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 RDD的属性（1）一组分区（Partition），即数据集的基本组成单位；（2）一个计算每个分区的函数；（3）RDD之间的

Spark2.x SparkCore WordCount Demo

版本 scala : 2.11 spark : 2.20 1、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" x

SparkCore之数据的读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件文件系统分为：本地文件系统、HDFS以及数据库一、文件类数据读取与保存 1.1 Text文件数据读取：textFile(String)数据保存：save

SparkCore

文章目录第1章 Spark概述1.1 Spark是什么1.1 Spark and Hadoop1.2 Spark or Hadoop1.3 Spark 核心模块第1章 Spark快速上手2.1 创建Maven项目2.1.1 增加Scala插件2.1.2 增加依赖关系2.1.3 WordCount2.1.4 异常处理第2章 Spark运行环境3.1 Local模式3.1.1 解压缩文件3.1

Spark学习之路（十六）SparkCore的源码解读（二）spark-submit提交脚本

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、源码解读 2.2　find-spark-home 2.3　spark-class 2.4　SparkSubmit 正文一、概述上一篇主要是介绍了spark启动的一些脚本，这篇主要分析一下Spark源码中提交任务脚本的处理

Spark学习之路（十四）SparkCore的调优之资源调优JVM的GC垃圾收集器

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、垃圾收集器(garbage collector (GC)) 是什么？三、为什么需要GC？四、为什么需要多种GC？五、对象存活的判断六、垃圾回收算法 6.1　标记 -清除算法 6.2　复制算法 6.3　标记-整理

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、启动脚本分析 1.1　start-all.sh 1.2　start-master.sh 1.3　spark-config.sh(1.2的第5步) 1.4　load-spark-env.sh(1.2的第6步) 1.5　spark-env.sh 1.6　spark-daemon.sh 1.7　spark-cl

Spark学习之路（十）SparkCore的调优之Shuffle调优

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、shuffle的定义三、ShuffleManager发展概述四、HashShuffleManager的运行原理 4.1　未经优化的HashShuffleManager 4.2　优化后的HashShuffleManager 五、SortShuffleManager运

Spark学习之路（十一）SparkCore的调优之Spark内存模型

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、堆内和堆外内存规划 2.1　堆内内存 2.2　堆外内存 2.3　内存管理接口三、内存空间分配 3.1　静态内存管理 3.2　统一内存管理四、存储内存管理 4.1　RDD 的持久化机制 4.2　RDD

SparkCore分布式计算模拟

一、基础的架子假设Executor是服务端，Driver是客户端代码： package test import java.io.InputStream import java.net.{ServerSocket, Socket} object Executor { def main(args: Array[String]): Unit = { //启动服务器，接收数据 val server = new Server

spark学习进度25（SparkCore实战案例）

词频统计：要求：统计Harry Potter.txt文件中出现最多单词前十位内容样例：代码及结果： @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("wordCount") val sc=new SparkContext(conf) val result=sc.t

大数据技术之SparkCore

第1章RDD概述1.1RDD引入之IO流 1.2什么是RDD 1.3RDD特性 A list of partitions多个分区，分区可以看成是数据集的基本组成单位对于 RDD 来说，每个分区都会被一个计算任务处理，并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数，如果没有指定，那么就会采用默认值。默

Spark深入解析（十八）：扩展之RDD相关概念关系（SparkCore终）

目录RDD相关概念关系 RDD相关概念关系输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能

Spark深入解析（六）：SparkCore之Spark代码编写WordCount

学习目标WordCount思路WordCount代码实现 WordCount思路准备数据将数据放在以下目录中 1.txt Hello World Hello Scala 2.txt Hello Spark 图解分析说明： 1、本地读取两个文件 2、两个文件内的数据 3、将文件内的数据进行扁平化 4、将相同单词进行分组 5、