编程语言
首页 > 编程语言> > python – pyspark解析固定宽度的文本文件

python – pyspark解析固定宽度的文本文件

作者:互联网

试图解析固定宽度的文本文件.

我的文本文件如下所示,我需要一个行id,日期,字符串和整数:

00101292017you1234
00201302017 me5678

我可以使用sc.textFile(path)将文本文件读取到RDD.
我可以使用解析的RDD和模式createDataFrame.
这是在这两个步骤之间的解析.

解决方法:

Spark的substr功能可以处理固定宽度的列,例如:

df = spark.read.text("/tmp/sample.txt")
df.select(
    df.value.substr(1,3).alias('id'),
    df.value.substr(4,8).alias('date'),
    df.value.substr(12,3).alias('string'),
    df.value.substr(15,4).cast('integer').alias('integer')
).show()

将导致:

+---+--------+------+-------+
| id|    date|string|integer|
+---+--------+------+-------+
|001|01292017|   you|   1234|
|002|01302017|    me|   5678|
+---+--------+------+-------+

拆分列后,您可以重新格式化并使用它们,就像在普通的火花数据帧中一样.

标签:python,apache-spark,pyspark,fixed-width
来源: https://codeday.me/bug/20190929/1832477.html