首页 > TAG信息列表 > pyspark-sql

表之间的PySpark正则表达式匹配

我正在尝试使用PySpark从列中提取正则表达式模式.我有一个包含正则表达式模式的数据框,然后有一个包含我要匹配的字符串的表. columns = ['id', 'text'] vals = [ (1, 'here is a Match1'), (2, 'Do not match'), (3, 'Match2 is another example'), (4, 'Do not match

如何将动态命名的列连接到字典中?

给定这些数据帧: IncomingCount ------------------------- Venue|Date | 08 | 10 | ------------------------- Hotel|20190101| 15 | 03 | Beach|20190101| 93 | 45 | OutgoingCount ------------------------- Venue|Date | 07 | 10 | ------------------------- Beach|

Python Spark DataFrame:用SparseVector替换null

在Spark中,我有以下名为“ df”的数据框,其中包含一些空条目: +-------+--------------------+--------------------+ | id| features1| features2| +-------+--------------------+--------------------+ | 185|(5,[0,1,4],[0.1,

python-如何使用“] | [”分隔符读取pyspark中的文件

数据如下所示: pageId] | [page] | [Position] | [sysId] | [carId  0005] | [宝马] | [南部] | [AD6] | [OP4 至少有50列和数百万行. 我确实尝试使用下面的代码来阅读: dff = sqlContext.read.format(“ com.databricks.spark.csv”).option(“ header”,“ true”).option(“ infe

python-PySpark数字窗口分组依据

我希望能够按步长设置Spark组,而不是单个值.有什么火花类似于PySpark 2.x的用于数字(非日期)值的窗口函数? 类似于以下内容: sqlContext = SQLContext(sc) df = sqlContext.createDataFrame([10, 11, 12, 13], "integer").toDF("foo") res = df.groupBy(window("foo", step=2, start

python-PySpark:如何判断数据框的列类型

假设我们有一个称为df的数据框.我知道有使用df.dtypes的方法.但是我喜欢类似的东西 type(123)== int#注意int不是字符串 我想知道是否有类似的东西: type(df.select(< column_name>).collect()[0] [1])== IntegerType 基本上,我想知道从数据帧直接获取IntegerType,StringType之类的

pyspark dataframe,groupby和计算列的方差

我想对pyspark数据框进行分组并计算特定列的方差.一般而言,这很容易,可以像这样完成 from pyspark.sql import functions as func AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 但是对于方差,在功能子模块中似乎没有任何聚合函数(我也

python-PySpark groupby和最大值选择

我有一个PySpark数据框 name city date satya Mumbai 13/10/2016 satya Pune 02/11/2016 satya Mumbai 22/11/2016 satya Pune 29/11/2016 satya Delhi 30/11/2016 panda Delhi 29/11/2016 brata BBSR 28/11/2016 brata Goa 30/10/2016

pyspark将数据框中的所有值替换为另一个值

我的pyspark数据框中有500列…有些是字符串类型,有些是int值,有些是布尔型(100个布尔型列). 现在,所有布尔值列都有两个不同的级别-是和否,我想将其转换为1/0 对于字符串,我有三个值:passed,failed和null.如何将这些空值替换为0?fillna(0)仅适用于整数 c1| c2 | c3 |c4|c5.....

python-读取pySpark中的文件范围

我需要在pySpark中读取连续文件.以下对我有用. from pyspark.sql import SQLContext file = "events.parquet/exportDay=2015090[1-7]" df = sqlContext.read.load(file) 我如何读取文件8-14?解决方法:使用花括号. file =“ events.parquet / exportDay = 201509 {08,09,10,11

python-用同一列的平均值填充Pyspark数据框列的空值

有了这样的数据框 rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032"),(1,20,None,"201602"),(1,20,3003,"201601"), (1,20,None,"201603"), (2,40, 2321,"201601"), (2,30, 10,"201602"),(2

如何使用matplotlib绘制pyspark sql结果

我是pyspark的新手.我想使用matplotlib绘制结果,但不确定使用哪个函数.我搜索了一种将sql结果转换为pandas然后使用plot的方法.解决方法:嗨团队我找到了解决方案.我将sql数据帧转换为pandas数据帧,然后我能够绘制图形.下面是示例代码.from pyspark.sql import Row from pyspark.sq

python – PySpark:使用过滤函数后取一列的平均值

我使用以下代码来获得薪水大于某个阈值的人的平均年龄. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) 列的年龄是数字(浮点数),但我仍然收到此错误. py4j.protocol.Py4JJavaError: An error occurred while calling o86.agg. : scala.MatchError: age (of cla

如何在Spark SQL中的多个列上进行数据透视?

我需要在pyspark数据帧中转动多个列.示例数据框, >>> d = [(100,1,23,10),(100,2,45,11),(100,3,67,12),(100,4,78,13),(101,1,23,10),(101,2,45,13),(101,3,67,14),(101,4,78,15),(102,1,23,10),(102,2,45,11),(102,3,67,16),(102,4,78,18)] >>> mydf = spark.createDataFr

mysql – 使用for循环数组时使用INSERT INTO表ON DUPLICATE KEY时出错

我正在使用pyspark框架更新mysql数据库,并在AWS Glue服务上运行. 我有一个数据帧如下: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR NAME 55","NY"),("xxx2","81A01","TERR NAME 55","NY"),("x103&qu

mysql – 如何在jdbc数据源中使用子查询来获取dbtable选项?

我想使用Spark来处理来自JDBC源的一些数据.但首先,我想在JDBC端运行一些查询来过滤列和连接表,而不是从JDBC读取原始表,而是将查询结果作为表加载到Spark SQL中. 加载原始JDBC表的以下语法适用于我: df_table1 = sqlContext.read.format('jdbc').options( url="jdbc:mysql://fo

在Python和PySpark中等效的R data.table滚动连接

有谁知道如何在PySpark中进行R data.table滚动连接? 借用Ben here的滚动连接的例子和很好的解释; sales<-data.table(saleID=c("S1","S2","S3","S4","S5"), saleDate=as.Date(c("2014-2-20","2014-5-1","201

从PySpark DataFrame中的Python列表中删除元素

我试图从Python列表中删除一个元素: +---------------+ | sources| +---------------+ | [62]| | [7, 32]| | [62]| | [18, 36, 62]| |[7, 31, 36, 62]| | [7, 32, 62]| 我希望能够从上面列表中的每个列表中删除元素rm.我写了一个函数,可

python – Pyspark SQL Pandas UDF:返回一个数组

我正在尝试制作一个带有整数值的两列的pandas UDF,并根据这些值之间的差异返回一个小数组,其长度等于上述差异. 这是我到目前为止的尝试,我一直在尝试使用这种方法来实现这一点,但这里是一般的想法 import pandas as pd @pandas_udf(ArrayType(DecimalType()), PandasUDFType.SCA

python – 使用窗口函数时出现pyspark错误(Spark 2.1.0报告问题列未找到)?

更新:      我创建了以下JIRA问题:https://issues.apache.org/jira/browse/SPARK-20086     状态:已修复! (周末!这太快了!) UPDATE2:     对于版本2.1.1,2.2.0,此问题在https://github.com/apache/spark/pull/17432中得到修复.所以我在http://people.apache.org/~pwendell

python – 如何使用Spark SQL在group by之后添加稀疏向量?

我正在做一个新闻推荐系统,我需要为用户和他们阅读的新闻建立一个表格.我的原始数据如下: 001436800277225 ["9161492","9161787","9378531"] 009092130698762 ["9394697"] 010003000431538 ["9394697","9426473","9428530"] 010156461231357

python – 访问PySpark中的count列

code: mydf = testDF.groupBy(testDF.word).count() mydf.show() output: +-----------+-----+ | word|count| +-----------+-----+ | she| 2208| | mothers| 93| | poet| 59| | moving| 18| | active| 6| | foot| 169| 我想

python – 上周一在Spark

我在Python API中使用Spark 2.0. 我有一个数据框,其列为DateType()类型.我想在包含最新星期一的数据框中添加一列. 我可以这样做: reg_schema = pyspark.sql.types.StructType([ pyspark.sql.types.StructField('AccountCreationDate', pyspark.sql.types.DateType(), True),