编程语言
首页 > 编程语言> > python-读取pySpark中的文件范围

python-读取pySpark中的文件范围

作者:互联网

我需要在pySpark中读取连续文件.以下对我有用.

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

我如何读取文件8-14?

解决方法:

使用花括号.

file =“ events.parquet / exportDay = 201509 {08,09,10,11,12,13,14}”

这是一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob.他们建议要么使用大括号,要么执行多次读取,然后合并对象(无论是RDD还是数据帧,还是应该有某种方式).

标签:pyspark-sql,python,apache-spark,pyspark
来源: https://codeday.me/bug/20191011/1891772.html