首页 > TAG信息列表 > SparkSession

1-sparkSQL

Mongo Spark Connector Spark SQL The following code snippets can be found in SparkSQL.scala. Prerequisites Have MongoDB up and running and Spark 2.2.x downloaded. This tutorial will use the Spark Shell allowing for instant feedback. See the introduction fo

广播变量

广播变量(BrocadCast)是Spark的一大特性,通过将小数据广播分发到每个执行任务的节点(Executor),从而避免了计算过程中的频繁拉去数据的网络带宽等开销。 Spark批处理和Spark Streaming流处理均支持广播变量。广播变量支持各种类型数据,包括数据、列表、Map、RDD、DataFrame等。     ob

SparkSQL 的创建 DataFrame

1.1   创建 DataFrame With a SparkSession, applications can create DataFrames from an existing RDD, from a Hive table, or from Spark data sources. 有了 SparkSession 之后, 通过 SparkSession有 3 种方式来创建DataFrame: 2          通过 Spark 的数据源创

Spark3学习【基于Java】2. Spark-Sql核心概念

SparkSession  从Spark2开始,Spark-SQL引入了SparkSession这个核心类,它是处理DataSet等结构数据的入口。在2.0之前,使用的是spark-core里的SparkContext。从前面的例子里也可以看到,程序一上来就要先创建SparkSession对象: SparkSession spark = SparkSession.builder().appName("Sim

spark sql 总结

一.概述 1.前世今生 大量数据需要处理 ➡️ MapReduce出现sql on mr ➡️ Hivemr效率太低 ➡️ TezTez效率低 ➡️ Sparksql on spark ➡️ Shark(太多的的借鉴了Hive制约了它,然后被推翻了,现在已经被弃用)sql on spark ➡️ SparkSql 2.简介 Spark SQL是Spark处理数据的一个模块专门用

idea 查看scala源代码

使用idea编写spark程序,想要查看源代码,点进去是compiled code   ` private[sql] def this(sc : org.apache.spark.SparkContext) = { /* compiled code */ } def version : scala.Predef.String = { /* compiled code */ }` 网上很多方法都是下载java 反编译工具,如java bytecod

SparkOnHive

package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo6SparkOnHive { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("submit&quo

spark sql 读取kudu表向sqlserver数据库中插入70万条数据

spark sql 读取kudu表向sqlserver数据库中插入70万条数据 1.废话不多说。直接上代码。 import java.util.Properties import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object KuduToSqlserver { val kuduMasters = "cdh-5:xx,cdh-6:xx"

spark中 reduceByKey() 和 groupByKey() 的 区别

1.groupByKey: 它是将RDD中相同的key值得数据(value)合并成为一序列,只能输出相同key值得序列。 2.reduceByKey: 因为内部调用的combineByKey函数,会先进行局部聚合, 再进行全局聚合,(类似于mapreduce里的combine操作)这样会大大减少网络IO, 起到优化作用。 相同点: 都作用于 RDD[K,V]

Spark Conf配置用法

Spark 2.0.0 在Spark2.0之后,Spark Session也是Spark 的一个入口, 为了引入dataframe和dataset的API,同时保留了原来SparkContext的functionality, 如果想要使用 HIVE,SQL,Streaming的API, 就需要Spark Session作为入口。 SparkSession spark = SparkSession.builder().appName( "de

idea下spark连接hive

spark连接hive步骤 将core-site.xml、hdfs-site.xml 、hive-site.xml放到配置文件夹下 设置hadoop用户名 System.setProperty("HADOOP_USER_NAME","hadoop"); 开启spark对hive的支持 val spark: SparkSession = SparkSession.builder() .appName(s"${this.getCl

错误总结

20/12/12 15:49:47 ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark confi

算子内部调用sparkSession或者sparkContext报NullPointException

这个问题是在服务器上报的,本地还是行的通的。 本地和服务器都是广播过变量的,服务器就是不行,解决方案是将结果数据返回成一个array,在外部调用session进行存储 ---------今天的第二个问题--------- dataframe也可以直接调用算子,但是无结果,需要df.collect。收集一下之后再进行

Spark Stuctured Streaming 读取文件夹数据

package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} object filesource { def

通过集合构建RDD或者DataFrame

利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.driver.host", "localhost").config("spark.debug.maxToStringFields"

spark之Executor与初始化SparkSession

关于Executor: 一个executor同时只能执行一个计算任务 但一个worker(物理节点)上可以同时运行多个executor executor的数量决定了同时处理任务的数量 一般来说,分区数远大于executor的数量才是合理的 同一个作业,在计算逻辑不变的情况下,分区数和executor的数量很大程度上决定了作业运

Spark 自定义UDF

●需求 有udf.txt数据格式如下: Hello abc study small   通过自定义UDF函数将每一行数据转换成大写 select value,smallToBig(value) from t_word   package cn.itcast.sql import org.apache.spark.SparkContext import org.apache.spark.sql.{Dataset, SparkSession}

import spark.implicits._ 报红,无法导入

先给出错误的代码 def main(args: Array[String]): Unit = { //Create SparkConf() And Set AppName SparkSession.builder() .appName("Spark Sql basic example") .config("spark.some.config.option", "so

【Spark】Spark常用方法总结1-创建编程入口(Python版本)

前言 今天有时间,将自己的笔记分享出来,方便同僚查阅。不断详细与更新中。为了方便,例子都是以Python写的,后续也会有其他语言的版本。 创建编程入口 SparkContext入口 from pyspark import SparkConf, SparkContext if __name__ == '__main__': conf = SparkConf().setApp

spark临时表导入hive出现null

Dataset<Row> json = sparkSession.read().json(lines); //创建临时表 json.createOrReplaceTempView("temp"); sparkSession.sql("select * from temp").show() //将临时表数据写入hive sparkSession.sql("create table fs as select * from temp"

HIVE存储格式ORC、PARQUET对比

  hive有三种默认的存储格式,TEXT、ORC、PARQUET。TEXT是默认的格式,ORC、PARQUET是列存储格式,占用空间和查询效率是不同的,专门测试过后记录一下。 一:建表语句差别 create table if not exists text(a bigint) partitioned by (dt string)row format delimited fields

sparksql系列(五) SparkSql异常处理,优化,及查看执行计划

有了上面四篇文章,再加上一些异常处理、优化,开发基本就没什么问题了。下面我们开始: 一:SparkSql异常处理 读JSON文件异常处理     val sparkSession= SparkSession.builder().master("local").getOrCreate()     var df2 = sparkSession.emptyDataFrame     

Spark大数据学习(1)--Spark连接HIVE进行SQL查询

1.Spark可以连接Hive进行SQL查询,目前我了解的有如下两种 (1)构建SparkContext ,创建HiveContext对象,连接hive进行查询 (2)直接采用SparkSession方式,enableHive 2.使用第二种方式,直接使用SparkSession.sql()方法进行sql查询,返回一个DataFrame对象。 3.maven的使用: (1)maven compil

spark笔记之编写Spark SQL程序操作HiveContext

HiveContext是对应spark-hive这个项目,与hive有部分耦合, 支持hql,是SqlContext的子类,在Spark2.0之后,HiveContext和SqlContext在SparkSession进行了统一,可以通过操作SparkSession来操作HiveContext和SqlContext。 1.1. 添加pom依赖[mw_shl_code=applescript,true]1.2. 代码实现

scala 使用case 关键字定义类不需要创建对象直接调用

1、必须是使用case 定义object类 package configimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}case object conf { val confs: SparkConf = new SparkConf().setMaster("local").setAppName("job") val sc = n