数据预处理
作者:互联网
data.xlsx 数据如下
1 # -*- coding: utf-8 -*- 2 # 我们必须进行数据预处理 它直接关系到分析结果的准确性 处理缺失值 数据重复值 3 # 检查缺失值 检测缺失值最简单的方法就是调用info()方法 通过观察每一列的非空值 即可判断出哪些列存在缺失值 4 # any() 一个序列中有一个True,则返回True。否则返回False 5 import pandas as pd 6 7 df = pd.read_excel('file/data.xlsx') 8 9 10 # 还有一种检测是否存在缺失值的方法 既isnull()方法搭配any()方法 11 def isnull_demo(): 12 print(df) 13 print(df.isnull()) 14 15 16 # isnull() 对于缺失值 返回True;对于非缺失值,返回False 17 def isnull_demo_any(): 18 print(df.isnull().any()) 19 20 21 # 检测重复数据 duplicated()方法 作用:可以检测重复值 22 def duplicated_demo(): 23 print(df.duplicated()) 24 print(df.duplicated().any()) 25 26 27 # 缺失值处理 在python中 通常使用NaN表示缺失值 可以用pandas模块中的fillna()方法来填充数据 28 # 可以用dropna()方法来删除缺失值 29 def fillna_demo(): 30 df1 = df.fillna({'数学': 0}) 31 df2 = df.dropna() 32 print(df1) 33 print(df2) 34 35 36 # drop_duplicates()方法来删除重复数据 37 def drop_duplicates_demo(): 38 df1 = df.fillna({'数学': 0}) 39 df2 = df.drop_duplicates() 40 print(df1) 41 print(df2) 42 43 44 # 数据替换 replace()方法 实现数据替换 例如replace(A, B) 表示将A替换为B 45 def replace_demo(): 46 df['数学'] = df['数学'].replace(0, 150) 47 print(df) 48 49 50 # isnull_demo() 51 # isnull_demo_any() 52 # duplicated_demo() 53 # fillna_demo() 54 # drop_duplicates_demo() 55 replace_demo()
标签:df,demo,缺失,isnull,print,数据,预处理,def 来源: https://www.cnblogs.com/zhaoyiguang/p/16648225.html