首页 > TAG信息列表 > apache-spark

java-在Spring Boot可执行jar中包含Hortonworks存储库

我在Spring Boot应用程序中使用Hortonworks存储库中的shc-core依赖项,该存储库在pom.xml文件中声明如下: <repositories> <repository> <id>repository.hortonworks</id> <name>Hortonworks Repository</name> <url>http://repo.h

表之间的PySpark正则表达式匹配

我正在尝试使用PySpark从列中提取正则表达式模式.我有一个包含正则表达式模式的数据框,然后有一个包含我要匹配的字符串的表. columns = ['id', 'text'] vals = [ (1, 'here is a Match1'), (2, 'Do not match'), (3, 'Match2 is another example'), (4, 'Do not match

java-通过scala.sys.process API在spark-scala中执行外部命令s3-dist-cp

当我在unix shell / terminal中运行所有这3个命令时,它们都工作正常,返回退出状态为0 unix_shell> ls -la unix_shell> hadoop fs -ls /user/hadoop/temp unix_shell> s3-dist-cp --src ./abc.txt --dest s3://bucket/folder/ 现在我试图通过scala process api作为外部进程运行这

java-SparkSql不支持日期格式

我试图将日期文件与sparkSql一起使用,但无法正常工作 例如javaSparkSqlExample 我试图添加datecoloumn dob 在Person类中,我添加了 将dob的setter和getter作为日期 当试图执行时 SELECT dob,name,age,count(*) as totalCount FROM Person WHERE dob >= '1995-01-01' AND age <= '2

java-Spark:从工作程序向驱动程序发送调试文本

我想诊断一些错误.我相信我不应该告诉整个情况来为我的问题找到一个好的解决方案.因此,我想在辅助进程上创建一些调试信息,并在驱动程序上实时显示. 我读到某个地方,在工作程序上发出System.out.println(“ DEBUG:…”)会在执行程序日志中产生一行,但目前在检索这些日志时遇到问题.

java-使用Scala Apache Spark合并RDD

我有2个RDD. RDD1: ((String, String), Int) RDD2: (String, Int) 例如: RDD1 ((A, X), 1) ((B, X), 2) ((A, Y), 2) ((C, Y), 3) RDD2 (A, 6) (B, 7) (C, 8) Output Expected ((A, X), 6) ((B, X), 14) ((A, Y), 12)

java-Spark-将RDD保存到多个文件作为输出

我有一个JavaRDD< Model&gt ;,我需要将其编写为多个具有不同布局的文件[RDD中的一两个字段在不同布局之间会有所不同]. 当我使用saveAsTextFile()调用模型的toString()方法时,这意味着将相同的布局写为输出. 目前,我正在使用地图转换方法迭代RDD并以其他布局返回不同的模型,因此

python-如何在Spark中对以DenseVector为键的RDD进行groupByKey?

我创建了一个RDD,每个成员是一个键值对,键是DenseVector,值是int.例如 [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] 现在,我想按密钥k1分组:DenseVector([3,4]).我希望该行为将键k1的所有值分组为10和20.但是我得到的结果是 [(DenseVector([3,4]), 10), (DenseVector([

java-使用–jars提交spark-submit yarn-cluster不起作用?

我正在尝试通过以下命令将火花作业提交给CDH纱簇 我尝试了几种组合,但都无法正常工作… 现在,我所有的poi jars都位于本地/ root以及HDFS / user / root / lib中,因此我尝试了以下操作 spark-submit --master yarn-cluster --class "ReadExcelSC" ./excel_sc.jar --jars /root/poi

Spark-Maven全新安装:如何同时编译Java和Scala类

我有一个Spark项目,其中同时包含.scala和.java文件.我正在尝试通过Maven构建来编译这两种类型的类.但是,当我运行“ mvn clean install”时,它只会为Java创建.class文件,而不是Scala.以下是我的pom.xml,是否缺少任何内容?非常感谢你! PS.我只能通过eclipse IDE来构建Scala类,但这非常

python-尝试运行Word2Vec示例时PySpark中出现错误

我正在尝试运行文档中给出的Word2Vec的非常简单的示例: https://spark.apache.org/docs/1.4.1/api/python/_modules/pyspark/ml/feature.html#Word2Vec from pyspark import SparkContext, SQLContext from pyspark.mllib.feature import Word2Vec sqlContext = SQLContext(sc) se

python中的spark自定义排序

我在Spark中有一个RDD(下面的python代码): list1 = [(1,1),(10,100)] df1 = sc.parallelize(list1) df1.take(2) ## [(1, 1), (10, 100)] 我想做一个自定义排序,根据元组中的两个条目比较这些元组.在python中,此比较的逻辑类似于: # THRESH is some constant def compare_tuple(a,

python-集群上的pyspark,确保使用了所有节点

部署信息:“ pyspark –master yarn-client –num-executors 16 –driver-memory 16g –executor-memory 2g” 我正在将一个100,000行文本文件(以hdfs dfs格式)转换为带有corpus = sc.textFile(“ my_file_name”)的RDD对象.当我执行corpus.count()时,我得到100000.我意识到所有这些

如何在Apache Spark中执行Sort JavaPairRDD

我正在从日志文件中获取IP地址并对其进行计数,现在我想根据其计数值对该JavaPairRDD进行排序. 您可以参考以下代码. JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() { @Override public Integer call(Int

java-如何以编程方式停止Spark Job执行

如果在出现异常或特定用例的情况下,我想以编程方式从Spark作业中停止我的Spark应用程序,那么如何从Java代码中实现这一点. 我尝试调用JavaSparkContext.close(),但该工作似乎仍在运行.解决方法:您可以使用以下方法来取消正在运行的Spark作业: cancelJobGroup(字符串组ID)-取消指定组

Java-Spark SQL:嵌套类导致拼花错误

我似乎无法在镶木地板上写JavaRDD< T>.其中T代表Person类.我将其定义为 public class Person implements Serializable { private static final long serialVersionUID = 1L; private String name; private String age; private Address address; .... 地址: pub

java-Spark Streaming / Spark是否像main()方法中的while循环一样工作?

这是一个非常简单的问题: 我通过以下方式使用Spark Streaming: private static int count=0; public static void main(String[] args) throws Exception { if (args.length < 2) { System.err.println("Usage: sparkstreaminggetjson <hostname> <port>");

python-read_csv()中的S3阅读器是先将文件下载到磁盘还是使用流式传输?

我正在使用read_csvin Pandas从S3读取数据.我想知道它是否先将文件下载到本地磁盘,然后加载到内存中,还是直接将传入的数据流传输到内存中,而没有中间步骤将其加载到磁盘. 我对Spark的sqlContext.read.load函数有相同的问题.解决方法:pandas uses boto用于访问s3,其中does appear t

java-如何在Spark Streaming中映射kafka主题名称和相应记录

我正在播放来自如下的kafka主题; JavaPairInputDStream<String, String> directKafkaStream = KafkaUtils.createDirectStream(jssc, String.class, String.class,

python-将文件名添加到WholeTextFiles上的RDD行

我一直在使用Google搜索,并尝试了几个小时而没有运气,希望大家能提供建议. 我正在将大量文件读取到Spark RDD中,并且想要将包含时间戳的文件名附加到RDD的每一行中.到目前为止,这就是我所得到的. def append_name(x): filename = x[0].split('\n') #take the filename con

我们可以在Spark DataFrame列中使用Pandas函数吗?如果是这样,怎么办?

我有一个名为“ pd_df”的熊猫数据框. 我想修改它的column,所以我做这样的事情: import pandas as pd pd_df['notification_dt'] = pd.to_datetime(pd_df['notification_dt'], format="%Y-%m-%d") 有用. 在同一数据库上,我创建了一个名为“ spark_df”的spark数据框. 我

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize?

我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为一旦加载库,JVM即会启动. 因此,设置配置的方法是实际去编辑启动它的shell脚本:spark-env.sh …根据此文档here. 如果要更改驱动程序的最大结果大小,通常可以这样做:spark.driver.maxResultSize.这与spark-env.sh文

python-在PySpark中计算加权平均值

我正在尝试计算pyspark中的加权均值,但没有取得很大进展 # Example data df = sc.parallelize([ ("a", 7, 1), ("a", 5, 2), ("a", 4, 3), ("b", 2, 2), ("b", 5, 4), ("c", 1, -1) ]).toDF(["k", "v1",

我如何将RDD保存到单个实木复合地板文件中?

我使用pyspark 2.0,hadoop 2.7.2. 这是我的代码: def func(df): new_df = pd.DataFrame(df['id']) new_df['num'] = new_df['num'] * 12 return new_df set = sqlContext.read.parquet("data_set.parquet") columns = set.colu

Spark作为Linux服务

我受命将Spark部署到生产环境中.我通常使用Ansible管理一切.我已经打包了zookeeper和kafka并可以将它们部署为linux服务,但是Spark遇到了问题. 似乎没有设置将其作为服务启动/停止的过程(指init.d服务).是否有人在集群模式下运行spark,您是否已设置它通过init.d脚本启动/停止?或关于