编程语言
首页 > 编程语言> > python-PySpark:如何判断数据框的列类型

python-PySpark:如何判断数据框的列类型

作者:互联网

假设我们有一个称为df的数据框.我知道有使用df.dtypes的方法.但是我喜欢类似的东西

type(123)== int#注意int不是字符串

我想知道是否有类似的东西:

type(df.select(< column_name>).collect()[0] [1])== IntegerType

基本上,我想知道从数据帧直接获取IntegerType,StringType之类的对象,然后对其进行判断的方法.

谢谢!

解决方法:

TL; DR使用外部数据类型(普通Python类型)测试值,使用内部数据类型(DataType子类)测试模式.

首先-您不应该使用

type(123) == int

检查处理继承的Python中类型的正确方法是

isinstance(123, int)

完成后,让我们来谈谈

Basically I want to know the way to directly get the object of the class like IntegerType, StringType from the dataframe and then judge it.

这不是它的工作方式.数据类型描述模式(内部表示)而不是值.外部类型是普通的Python对象,因此如果内部类型为IntegerType,则外部类型为int,依此类推,具体取决于Spark SQL Programming guide中定义的规则.

IntegerType(或其他DataTypes)实例存在的唯一位置是您的架构:

from pyspark.sql.types import *

df = spark.createDataFrame([(1, "foo")])

isinstance(df.schema["_1"].dataType, LongType)
# True
isinstance(df.schema["_2"].dataType, StringType)
# True

_1, _2 = df.first()

isinstance(_1, int)
# True
isinstance(_2, str)
# True

标签:pyspark-sql,apache-spark,pyspark,apache-spark-sql,python
来源: https://codeday.me/bug/20191110/2013392.html